多媒体可信感知与高效计算教育部重点实验室17篇研究成果被国际计算机视觉与模式识别会议CVPR 2023接收!CVPR是由IEEE主办的计算机视觉、模式识别及人工智能等领域最具影响力和最重要的国际顶级会议。本届CVPR 2023共收到9155篇有效投稿,最终共有2360篇论文被录用,接受率为25.78%。
实验室接收论文简要介绍如下:
1.STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection
该论文提出一种面向人脸点位检测的自适应各向异性损失,用于减缓标注噪声对模型训练的影响。语义歧义问题广泛存在于关键点任务中,该问题会引入标注噪声,影响模型收敛,进而导致模型预测不准确和不稳定。该论文观察到语义歧义会导致预测热图呈各项异性分布,因此,基于PCA设计算法衡量预测分布的各向异性。与标准回归损失相比,当预测分布为各向异性时,会使损失较小,从而自适应地减轻语义歧义对模型训练的影响。除此之外,该论文提出两种特征值限制方法,用于避免学习错误的特征和分布异常变化。该方法在三个常用数据集(COFW、300W和WFLW)上取得了最佳性能。

该论文由厦门大学信息学院2020级硕士生周正林,NII(日本国立情报学研究所)刘弘,纪荣嵘教授(通讯作者)等合作完成。
2.DistilPose: Tokenized Pose Regression with Heatmap Distillation
该论文提出了一种基于知识蒸馏的二维人体姿态估计框架,将基于热力图方法的人体姿态估计器作为教师模型,将基于坐标回归方法的人体姿态估计器作为学生模型,通过Token-Distilling Encoder和Simulated Heatmaps两个模块,使得训练所得的学生模型能够在学得教师模型知识上的优势的同时保持结构上的优势。本论文在常用的公开数据集MSCOCO上进行实验,验证了本算法能够在保持学生模型结构几乎不变的情况下,极大地提高学生模型的性能。

该论文由厦门大学信息学院人工智能系2020级硕士生叶苏航与其导师纪荣嵘教授、2019级博士生胡杰、张声传助理教授(通讯作者)、曹刘娟教授和优图实验室合作完成。
3.Discriminator-Cooperated Feature Map Distillation for GAN Compression
该论文针对生成对抗网络中的模型压缩问题,提出一种基于知识蒸馏的方法提升轻量化生成器的性能。论文提出基于鉴别器协作的知识蒸馏框架DCD,该方法考虑在蒸馏框架中,教师鉴别器可以作为现成的特征语义编码器,提炼出生成器中间特征图的有效信息进行蒸馏。为将生成器的特征图输入鉴别器中,对教师和学生网络分别定义两个不同的下采样模块,下采样模块均采用1×1卷积,其中教师的下采样模块初始化后不作更新,学生下采样模块随着训练更新参数。最后结合感知损失蒸馏以及教师鉴别器协作的生成对抗损失,在多个数据集(horse2zebra、summer2winter和edges2shoes)上实现了最佳性能。

该论文由厦门大学信息学院2021级硕士生胡铁,腾讯优图林明宝,尤梨洲,晁飞副教授,纪荣嵘教授(通讯作者)等合作完成。
4.Meta Architecture for Point Cloud Analysis
该论文提出了一个三维点云分析网络的统一框架,称为PointMeta,流行的三维点云分析方法可以适合该框架。这带来了三个好处。首先,它允许我们以公平的方式比较不同的方法,并使用快速实验来验证从比较中总结出来的任何经验观察或假设。其次,PointMeta框架所提供的视野使我们能够思考不同的组件,并重新审视流行方法所做出的共同信念和关键的设计决策。第三,基于前两种分析的经验教训,通过对现有方法进行简单的调整,我们能够得到出一个高效的基础构建块,称为PointMetaBase。通过在具有挑战性的基准上进行的广泛实验,它显示出非常强的效率和有效性的性能。在S3DIS数据集上,PointMetaBase只用2%/11%/13%的计算成本超过了0.7%/1.4/%2.1%之前最先进的方法。

该论文由厦门大学信息学院人工智能系2021级博士生林豪佳与其导师纪荣嵘教授(通讯作者),晁飞教授,田永鸿教授等共同合作完成。
5.RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension
RefTeacher面向半监督指向性目标检测任务,该论文提出了第一个半监督REC框架以降低标注成本。本文采用教师-学生网络框架,教师网络输入描述对象的图像和句子(无标签数据),输出文本所指向的伪边界框,与有标签数据一起用于训练学生网络,教师网络通过学生网络EMA更新。为了解决半监督REC任务中伪标签稀疏和错误率高的问题,RefTeacher包含两个专门设计的模块:基于注意力的模仿学习(AIL)和自适应伪标签加权(APW),以将知识从教师模型更好传递给学生模型。为了证明该模型的有效性,本文与多个基线比较并取得良好性能。

该论文由厦门大学信息学院2021级硕士生孙嘉沐,2021级博士生罗根,周奕毅副教授(通讯作者),孙晓帅副教授,宁德时代江冠南,宁德时代王智玉,纪荣嵘教授等合作完成。
6. Clover:Towards A Unified Video-Language Alignment and Fusion Model
建立一个通用的视频语言预训练模型来解决各种视频理解任务,如视频文本检索和视频问题回答,是机器学习领域的一个开放性挑战,现有方法通常存在泛化性差以及推理效率低的问题。为了解决上述问题,本文提出了一种统一的视频语言预训练模型Clover,Clover通过结合视频文本检索中常用的双塔模型和视频问答任务中常用的融合模型并在下游任务拆分使用来解决在多类下游任务泛化性差的问题,同时,Clover通过一个新的三模态对齐的预训练任务来协同提升模型跨模态对齐和跨模态融合的能力,使融合模型可以通过梯度回传以外的方式直接影响单模态编码器。此外,Clover通过纳入对语义增强的MLM预训练任务和配对排序预训练任务来加强三模态对齐的效果,提升模型的准确性和鲁棒性。实验证明,本文提出的Clover预训练模型在多个下游任务数据集上达到了当前的SOTA,包括了三个视频文本检索数据集和八个视频问答数据集。

该论文由厦门大学信息学院2020级硕士生李毅男,孙晓帅副教授(通讯作者),纪荣嵘教授,字节跳动智能创作黄靖佳、冯佳时、吴兴龙等合作完成。
7.RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension
该论文面向弱监督指向性目标检测任务,即采用图像级别标注进行训练,根据指代表达式在图像中定位目标对象。现有方法采用两阶段流程,存在着速度和泛化性上的弊端。 针对以上问题,该论文首先提出了一种端到端的单阶段弱监督REC方法,称为RefCLIP。具体来说,RefCLIP将弱监督REC重新定义为锚点-文本匹配问题,可以避免现有方法中复杂的后处理。为了实现弱监督学习,该论文引入了基于锚点的对比损失,通过大量锚点-文本对进行优化训练。基于RefCLIP,该论文进一步提出了第一个针对现有REC模型的弱监督训练方案,即由RefCLIP为REC模型生成伪标签进行弱监督训练。通过精心设计,该方案甚至可以帮助现有REC模型实现比RefCLIP更好的弱监督性能。论文方法在在RefCOCO,RefCOCO+, RefCOCOg和ReferItGame数据集上进行了充分验证。相较于之前的方法,论文方法不仅将推理速度提高了5倍,而且显著提高了性能,例如在RefCOCO上提高了24.87%。

该论文由厦门大学人工智能研究院2021级硕士生金磊,信息学院2021级博士生罗根,周奕毅副教授,孙晓帅副教授(通讯作者),宁德时代江冠南,束岸楠和纪荣嵘教授合作完成。
8.Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective
该论文探索并提出理论证明来解释为什么振荡问题在后训练量化中会影响量化精度。本文中试图通过在理论上引入一个原则性的和通用的框架来解决这个问题。特别是,首先展示了后训练量化中的振荡问题,并证明此问题是由模块容量差异引起的。为此,定义了数据依赖和无数据场景下的模块容量(ModCap),其中相邻模块之间的差异用于衡量振荡程度。然后通过选择 top-k 差分来解决问题,其中相应的模块被联合优化和量化。大量实验表明,本文的方法成功地减少了性能损失并推广到不同的神经网络和后训练量化 算法。例如,使用2/4位ResNet50量化,本文的方法超越了之前的最先进方法1.9%。它在小模型量化上受益更为明显,例如在MobileNetV2×0.5上超越BRECQ 方法6.61%。

该论文由厦门大学信息学院2022级博士生马跃萧,字节跳动李慧霞,鹏城实验室郑侠武博士,字节跳动肖学锋,晁飞副教授,纪荣嵘教授(通讯作者)等合作完成。
9.You Only Segment Once: Towards Real-Time Panoptic Segmentation
该论文提出了一种实时的全景分割方法,能通过统一的模型同时完成目标分类、检测、分类任务。为了提升整体模型的处理速度,文章分别提出了卷积优先特征聚合器与可分离动态卷积解码器。卷积优先特征聚合器通过调整卷积层与双线性差值的顺序,在理论精度完全等价的情况下实现模型的加速;可分离动态卷积解码器通过共享多头注意力机制中的全连接参数进行模型的加速。文章在常用的全景分割数据集MSCOCO、ADE20K、Cityscape以及Mapillary Vista上进行了相关实验,本文方法在速度超越其他基线模型的同时,达到了具有竞争力的准确性。

该论文由厦门大学信息学院2019级博士生胡杰、2021级硕士生黄琳焱、2021级本科生任天和、张声传助理教授、曹刘娟教授(通讯作者)、纪荣嵘教授合作完成。
10.Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification
对于可见光与近红外跨模态行人重识别任务,主要挑战是可见光和红外图像之间的模态差异。然而,训练样本通常是有限的,而模态差异太大,这导致现有的方法无法有效地挖掘跨模态的细粒度线索。为了解决这一问题,该论文提出了一种新的增强网络,称为多样性的特征扩展网络。该算法可以有效地生成不同的特征来学习多样性的特征表示,并减少可见光和红外图像之间的模态差异。此外,本文提供了一个低光照的跨模态行人重识别数据集,该数据集包含46,767个由9台可见光和近红外相机捕获的1,064个行人的图像。在SYSU-MM01、RegDB和LLCM数据集上进行的大量实验表明,所提出的算法优于其他现有的方法。

该论文由厦门大学信息学院计算机科学与技术系2020级博士生张玉康与其导师王菡子教授(通讯作者)合作完成。
11.Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge Excavation
目前深度长尾视觉识别的主要目的是在保证对多数类别影响最小的情况下尽可能提高少数类别的识别效果,以获得更加平衡的判别模型。该工作首先发现深度模型对于视觉长尾特征存在深度相关的偏好。基于此发现,该论文提出了一种基于多专家架构的自异构长尾学习方法。该方法首先对不同深度浅层特征与专家深层特征进行聚合,使得深度专家自发利用多样化深浅特征,随后通过动态知识迁移在特征学习阶段实现对困难负类的压制。实验结果表明,该方法在长尾视觉识别的4个基准数据集上都取得了目前最优的性能表现。

该论文由厦门大学信息学院计算机科学系2021级硕士生金焱与其导师卢杨助理教授(通讯作者)、王菡子教授和深圳光明实验室以及香港浸会大学合作完成。
12. VirtualSparse Convolution for Multimodal 3D ObjectDetection
该论文针对基于虚拟点的三维目标检测中噪声大和计算冗余度高的问题,设计了一个新的虚拟稀疏卷积(VirConv),通过冗余体素抛弃及将稀疏体素映射回图像空间抑制深度估计噪声,显著提高了多模态三维目标检测的效率和精度。以此为基础,提出VirConv-L,VirConv-T和VirConv-S分别用于高效率、高精度、半监督三维目标检测。在竞争激烈的KITTI 自动驾驶数据集二维、三维、BEV汽车检测榜单上,方法均排名第一(2022/11月-至今)。

该论文由厦门大学信息学院2021级博士生吴海、温程璐教授(通讯作者)、Shaoshuai Shi(Max Planck Institute for Informatics)、Xin Li(Texas A & M University)以及厦门大学王程教授合作完成。
13.SGLoc: Scene Geometry Encoding for Outdoor LiDAR Localization
激光雷达三维视觉定位是城市全空间(室内外)、全天候、全天时可用的稳健导航解决方案。无地图视觉定位技术使用神经网络来隐式的替代定位任务中的传统地图。无地图视觉定位仅需当前场景数据,避免了地图的存储和传输。SGLoc将激光雷达视觉定位问题解耦为点云对应点回归和位姿估计两个子问题,强化了隐式神经网络对场景中三维几何的学习能力,显著提升定位精度。在10公里级城市场景验证结果表明,SGLoc是首个能够在达到亚米级定位精度的大范围无地图视觉定位模型。

该论文由厦门大学信息学院2021级博士生李文、2018级博士于尚书、厦门大学王程教授(通讯作者)、Oosto算法工程师胡国胜、厦门大学沈思淇助理教授以及温程璐教授合作完成。
14.SLOPER4D: A Scene-Aware Dataset for Global 4DHuman PoseEstimation in Urban Environments
该论文提出了用于全局4D人体姿态估计的大型城市场景感知数据集SLOPER4D。基于自制的激光雷达和相机头戴式设备,采集了12名对象在10个城市场景中的动作序列,并提供了2D关键点、3D姿态参数和全局平移的逐帧标注,以及重建的场景点云。SLOPER4D包括15个运动序列(轨迹长度均大于200米),覆盖面积超过2千平方米;包含100K LiDAR帧、300K视频帧和500K的IMU运动帧。基于建图和动作捕捉联合优化方法,数据集还提供了准确的全局3D人体姿态标注。该数据集将有效促进大规模城市场景下全局人体姿态估计相关工作的研究。

该论文由厦门大学信息学院2019级博士生戴雨笛、2021级硕士生林逸泰、2022级硕士生林希平、厦门大学温程璐教授(通讯作者)、上海科技大学许岚助理教授、博士生易鸿伟(Max Planck Institute for Intelligent Systems, Tübingen, Germany)、厦门大学沈思淇助理教授、上海科技大学马月昕助理教授、厦门大学王程教授合作完成。
15.CIMI4D:A Large Multimodal Climbing Motion Dataset underHuman-scene Interactions
该论文提出了一个大型攀岩运动数据集CIMI4D,包含姿态惯性测量动作序列、点云序列、RGB 视频、点云场景等来自12位攀岩爱好者的攀岩运动数据。我们通过一个联合优化过程对不同模态的数据进行了时间同步、优化校准,并通过人工标注提高了数据的质量。本文在人体姿态估计(有/无场景约束)、姿态预测和姿态生成等任务对现有方法进行测试,由于现有方法主要关注的是在地面上行走的人体姿态,在以CIMI4D为代表的攀爬动作上表现欠佳,CIMI4D对现有方法带来较大的挑战。相关数据集,代码将于近期发布。

该论文由厦门大学2022级博士生颜明、2021级硕士生王新、2019级博士生戴雨笛、沈思淇助理教授(通讯作者)、温程璐教授,上海科技大学许岚助理教授、马月昕助理教授以及厦门大学王程教授合作完成。
16. Learning a Simple Low-light Image Enhancer from Paired Low-light Instances
论文针对现有弱光照图像增强方法受限于单幅图像的有限信息以及手工先验的有效性和适用性的问题,提出使用弱光照图像对和自监督深度学习方法对弱光照图像进行Retinex分解。通过引入成对弱光照图像内在的反射率一致性约束,提出的方法能够极大地减少模型对于手工特征的依赖,进而提升模型的准确性和鲁棒性。

该论文由厦门大学信息与通信工程系2019级博士研究生富振奇、涂晓彤老师(通信作者),黄悦教授,丁兴号教授以及南洋理工大学kai-Kuang Ma教授共同合作完成。
17.Memory-friendly Scalable Super-resolution via Rewinding Lottery Ticket Hypothesis
该论文提出了一种内存友好的轻量化可伸缩超分方法(简称MSSR)来构建稀疏度可调的可伸缩超分模型。MSSR首次在图像恢复任务中引入彩票假说(Lottery Ticket Hypothesis,LTH)用于构建可伸缩模型。并且,MSSR可以针对不同的超分方法去构建相应的可伸缩超分模型,该模型可以根据不同的稀疏度自适应地适配到不同的设备当中,减少模型的重复再训练。

该论文由厦门大学信息学院计算机科学与技术系2020级硕士生林锦、2020级博士生罗小同、计算机科学与技术系曲延云教授(通信作者)等共同合作完成。