多媒体可信感知与高效计算教育部重点实验室十八篇论文被NeurIPS 2025 录用

2025年09月26日 10:09 点击:[]

The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025)是人工智能与机器学习领域的三大国际会议(NeurIPSICMLICLR)之一,CCF A类会议。NeurIPS 2025分别将于20251130-125日在墨西哥墨西哥城以及2025122-127日在美国圣地亚哥举办,今年 NeurIPS 主赛道共收到 21575 份有效论文投稿,录用5290 篇,录用率为 24.52%。厦门大学多媒体可信感知与高效计算教育部重点实验室共有18篇论文被录,录用论文简要介绍如下:(按第一作者姓氏笔画排序)

1. Pan-LUT: Efficient Pan-sharpening via Learnable Look-Up Tables

简介:通过用可学习的查找表替换复杂的深度神经网络操作,实现资源有限环境下的超大分辨率遥感图像融合。本文提出了一种可学习的查找表架构Pan-LUT。将PAN图像像素信息作为监督的通道差异索引技术以及局部像素差异的索引技术,分别构建用于补获光谱信息和局部纹理信息的查找表。此外,通过在训练时引入旋转增强策略,进一步增大感受野,实现更加精细的纹理细节。查找表的简单的索引和线性插值技术对比于复杂的卷积运算或注意力计算有着明显的计算效率优势。实验结果表明,Pan-LUT可以在1ms内处理8K大小的遥感图像,同时有着对比于神经网络方法的性能,有着极高的实际应用的价值。

该论文第一作者是厦门大学信息学院信息与通信工程系2023级硕士生蔡中南,通讯作者是丁兴号教授。

2. Unlocker: Disentangle the Deadlock of Learning from Label-noisy and Long-tailed Data

简介:长尾噪声标签学习致力于处理真实世界数据中长尾分布与标签噪声共存场景下的模型学习难题。我们发现,该场景下存在 “死锁” 困境:标签噪声学习方法需依赖无偏预测实现标签识别和修正,进而恢复真实类分布,而长尾学习方法(如logit调整)则需以真实类分布为先验,实现对模型有偏预测的矫正,二者形成循环依赖。为解耦这一死锁,本文提出双层优化框架 Unlocker:内层优化融合噪声标签方法与长尾学习方法,实现公平的噪声标签识别与修正;外层优化则通过自适应优化调整强度,动态平衡模型偏见。实验结果表明,Unlocker 在多个基准数据集上的性能均显著优于当前主流的长尾噪声标签学习方法。

该论文第一作者是厦门大学2023级硕士生陈姝,通讯作者是卢杨助理教授,由2023级本科生徐紘濬、2024级硕士生张瑞弛、李梦柯助理教授(深圳大学)、张永岗助理教授(香港科技大学)、韩波副教授(香港浸会大学)、张晓明教授(香港浸会大学)、王菡子教授合作完成。

3. PlanU: Large Language Model Decision Making through Planning under Uncertainty

简介针对大语言模型在不确定性环境下难以实现稳健规划这一关键难题,论文了提出PlanU方法—— 一种基于大语言模型的规划框架,其核心是在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)中融入对不确定性的建模。其技术核心包括两个部分:

i. 值分布建模:PlanU 创新地将蒙特卡洛树搜索中各节点的收益return)建模为分位数分布,通过一组分位数精准表征收益的分布特征,以此更充分地捕捉决策过程中存在的不确定性。

ii. 好奇心驱动的评估机制:为优化树搜索策略,PlanU 提出带好奇心的上置信界Upper Confidence Bounds with Curiosity, UCC)评估机制,通过量化评估蒙特卡洛树各节点的好奇心分数,有效缓解 LLM 的不确定性问题,弥补了传统搜索策略在适配 LLM 决策场景时的不足。

文章在 WebShopTravelPlanner 等权威基准测试中验证,PlanU 在大语言模型不确定性决策任务上表现显著优于各类基线方法,且兼具环境适应性、资源效率与跨模型稳健性。

该论文共同第一作者是厦门大学信息学院2023级硕士生邓子微、2023级硕士生邓冕,通讯作者是沈思淇长聘副教授。由梁辰景、高泽铭、硕士毕业生马陈楠、林晨兴、张海鹏、梅松竹副研究员(国防科技大学)、王程教授共同完成。

4. WarpGAN: Warping-Guided 3D GAN Inversion with Style-Based Novel View Inpainting

简介:本文针对单张图像的3D GAN反演问题,提出了一种新的方法WarpGAN,用于实现基于单张图像的新视角合成。现有方法多关注可见区域的重建,而对遮挡区域的生成仅依赖于3D GAN的生成先验,导致因低比特率潜在码造成的信息丢失使得遮挡区域生成质量差。为此,本文引入了变形与修复策略,将图像修复融入3D GAN反演。首先利用反演编码器将单视图图像投影到作为3D GAN输入的潜在编码;接着利用3D GAN生成的深度图进行新视角的变形;最后提出的SVINet借助对称先验和针对相同潜在编码的多视图图像对应关系,对变形图像中的遮挡区域进行修复。定量和定性实验表明,该方法均优于现有的先进方法。

该论文第一作者为厦门大学信息学院2024级硕士生黄锴涛,通讯作者是严严教授,由Jing-Hao XueUCL)、王菡子教授共同合作完成。

5. Discovering Important Experts for Mixture-of-Experts Models Pruning Through a Theoretical Perspective

简介:混合专家(MoE)架构能够高效扩展大语言模型,但由于参数规模庞大而面临巨大的内存开销。现有的专家剪枝方法依赖启发式指标或对专家子集进行不可行的穷举评估,导致性能欠佳或缺乏可扩展性。本文提出Shapley-MoE方法,该方法是一种受合作博弈论启发的高效MoE剪枝方法。通过利用 Shapley 值量化每个专家的贡献,无需对专家组合进行穷举评估即可识别重要专家。为克服精确计算 Shapley 值的 NP-hard复杂度难题,本文引入了基于蒙特卡罗采样的高效近似策略,将计算复杂度降低至平方级别。然而,朴素的蒙特卡罗采样仍然面临估计精度不足和采样效率低的问题。为此,本文进一步提出两种新方法以提升采样精度与效率:(1)早期截断,针对过小专家子集引发的不稳定采样步骤进行提前终止;(2)路由器引导的重要性采样,利用门控激活概率优先采样重要的专家子集。理论与实验分析均表明,这两种方法能够加速 Shapley 值估计并提升精度。大量实证评估显示,Shapley-MoE方法优于现有的专家剪枝方法。

该论文第一作者为厦门大学人工智能研究院2025级博士生黄伟中,通讯作者是曹刘娟教授,由2022级博士生张玉鑫、郑侠武副教授、晁飞副教授以及纪荣嵘教授等共同合作完成。

6. DAMamba: Vision State Space Model with Dynamic Adaptive Scan

简介:状态空间模型(SSMs)近年来在计算机视觉领域引起了广泛关注。然而,由于图像数据具有独特特性,将SSMs从自然语言处理领域迁移到计算机视觉中,并未超越当前最先进的卷积神经网络(CNNs)和视觉TransformerViTs)。现有的视觉SSMs主要依赖人工设计的扫描方式,将图像块在局部或全局范围内展平为序列。这种方法破坏了图像原本的语义空间邻接关系,缺乏灵活性,难以有效捕获复杂的图像结构。为克服这一局限性,本文提出了动态自适应扫描(DAS),一种数据驱动的方法,可自适应地分配扫描顺序与区域,从而在保持线性计算复杂度和全局建模能力的同时,实现更灵活的建模能力。在此基础上,本文进一步提出了视觉骨干网络 DAMamba,在图像分类、目标检测、实例分割和语义分割等视觉任务中,相比主流的视觉 Mamba 模型取得了显著性能提升。值得注意的是,它还超越了一些最先进的CNNsViTs

该论文的共同第一作者是厦门大学信息学院2024级博士生李谭哲和信息学院2023级硕士生李曹硕,通讯作者是金泰松副教授,由张宝昌教授(北京航空航天大学)、纪荣嵘教授等共同合作完成。

7. Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval

简介:为降低大语言模型中键值缓存(KV cache)的负担以加速推理,一种有效策略是在解码过程中动态选取关键缓存。现有方法多采用随机线性哈希来识别重要词元,但由于模型中查询与键的向量正交分布于两个狭窄的锥形区域内,此方法的效率并不高。我们为此引入一种名为“Spotlight Attention”的新方法,它通过非线性哈希函数来优化查询和键的嵌入式分布,进而提升编码效率与稳健性。同时,我们开发了一套基于布拉德利-特里排序损失的轻量级稳定训练框架,仅需8小时即可在单张16GB显存的GPU上完成非线性哈希模块的优化。实验结果表明,与传统线性哈希相比,Spotlight Attention在大幅提升检索精度的同时,将哈希码长度缩短了至少五倍。最后,我们通过实现专门的CUDA核心来利用位运算的计算优势,在单块A100 GPU上实现了对512K词元的哈希检索耗时低于100微秒,端到端吞吐量相较于传统解码方式提升高达三倍。

该论文的第一作者是厦门大学人工智能研究院2023级硕士生李文昊,通讯作者是纪荣嵘教授,由张玉鑫博士、罗根博士、晁飞副教授、万海缘(清华大学),龚子洋(上海交通大学)共同合作完成。

8. Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs

简介:多模态大语言模型(MLLMs)在单图像任务中表现卓越,但在多图像理解方面因跨模态对齐问题而表现不佳,常导致上下文忽略、混淆与误解等幻觉现象。现有基于直接偏好优化(DPO)的方法通常仅针对输入序列中的单张图像进行优化,缺乏对多图像整体上下文的建模,导致效果受限。为此,我们提出上下文至线索直接偏好优化CcDPO),一种层次化偏好优化框架,通过从序列上下文到局部细节的视觉线索聚焦,增强模型在多图像场景下的感知能力。具体而言,CcDPO包含两个层次:(i)上下文级优化:通过引入低成本构建的全局序列偏好对,校正MLLMs在多图像理解中存在的上下文认知偏差。 ii)线索级优化:通过融合区域视觉提示与多模态偏好监督,引导模型聚焦于关键视觉细节,以抑制其图像感知偏差。此外,为了支持可扩展的优化,我们还构建了自动生成的多层级偏好对数据集MultiScope-42k。实验结果表明,CcDPO 能显著减少MLLM多图像理解中的幻觉现象,同时在各类单图像与多图像任务上均表现出稳定的性能提升。

该论文的共同第一作者是厦门大学信息学院2025级博士生李旭东和张梦丹(腾讯优图),通讯作者是张岩工程师,由陈珮娴(腾讯优图)、郑侠武副教授、孙星(腾讯优图)、纪荣嵘教授等共同合作完成。

9. LTD-Bench: Evaluating Large Language Models by Letting Them Draw

简介:当前大型语言模型(LLMs)的评估范式是人工智能研究中的一个关键盲区,这类范式依赖不透明的数值指标,既掩盖了模型在空间推理方面的根本性局限,也无法让人直观理解模型的实际能力。这种缺陷导致模型报告的性能与实际能力之间出现危险的脱节,在需要理解物理世界的应用场景中,这一问题尤为突出。为此,本文提出了LTD-Bench:该基准通过要求模型借助点阵或可执行代码生成指定图形,将 LLM 评估从抽象分数转变为可直接观察的视觉输出。这种方法能让非专业人士也能立刻发现模型在空间推理上的局限,从而弥合统计性能与直观评估之间的根本性差距。

LTD-Bench 采用了全面的评估方法,包含互补的生成任务(测试空间想象力)与识别任务(评估空间感知能力),并将两项任务划分为三个难度逐步提升的等级,系统地评估语言-空间映射的两个方向(即语言到空间空间到语言)。本文针对最先进模型开展的实验表明:即便在传统基准测试中取得优异成绩的 LLM,在建立语言与空间概念的双向映射时,仍表现出严重不足,这一根本性局限削弱了它们作为真实世界模型的潜力。此外,LTD-Bench 的视觉输出支持高效的诊断分析,为研究模型相似性提供了一种可行途径。

该论文共同第一作者为厦门大学信息学院2023级硕士林柳灏和腾讯优图李珂,通讯作者为张岩工程师,由许子涵(腾讯优图)、施俞晨(腾讯优图)、秦玉磊(腾讯优图)、孙星(腾讯优图)、纪荣嵘教授等共同合作完成。

10. JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

简介:照片修饰已成为现代视觉叙事的重要组成部分,使用户能够捕捉美感并展现创意。如Adobe Lightroom 等专业工具虽然功能强大,但操作门槛较高;现有 AI 方案虽实现自动化,却缺乏足够的可调节性与泛化能力,难以满足多样化的个性化需求。为填补这一空白,本文提出 JarvisArt,一个由多模态大语言模型(MLLM)驱动的智能体。它能理解用户意图,模拟专业修图师的思维流程,并在Lightroom中智能调用200多种修饰工具。其训练包括两个阶段: 通过链式思维监督微调掌握基础推理与工具使用; 采用面向修饰的组相对策略优化(GRPO-R)提升决策与执行能力。同时,本文提出“Agent-Lightroom 协议,以实现与 Lightroom 的无缝集成。为评估性能,本文构建了真实用户编辑驱动的新基准 MMArt-Bench。实验表明,JarvisArt 在交互性、泛化能力与局部/全局控制方面表现优异。在内容保真度指标上,其在MMArt-Bench 中比GPT-4o提升60%,且保持出色的指令遵循能力,展现出智能修图的新潜力。

该论文的共同第一作者是厦门大学信息学院信息与通信工程系2023级硕士研究生林云龙、林子旭和2024级硕士研究生林坤杰,通讯作者为丁兴号教授 ,由颜水成教授(新加坡国立大学)等共同合作完成。

11. CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models

简介:本文提出 Completion Pruning Policy Optimization (CPPO),以加快 DeepSeek 提出 Group Relative Policy Optimization (GRPO) 算法的训练速度。本文通过对GRPO的策略目标函数进行理论推导和分析发现并非所有完成(Completion)对策略模型的梯度的贡献都相同,其贡献取决于完成的绝对优势值。基于这个发现,CPPO通过剪枝掉具有低绝对优势值的完成,大幅减少策略模型训练所需的计算量,并通过动态分配策略,有效利用完成剪枝策略释放的计算量,进一步提高GPU利用率。实验表明,CPPOGSM8KMath数据集上相对于GRPO算法分别实现了 8.32× 3.51× 的训练加速,同时保持甚至提升了策略模型精度。

该论文第一作者是厦门大学信息学院人工智能系2024级博士生林志航,通讯作者是纪荣嵘教授,由林明宝(Rakuten 首席科学家)、谢源教授(华东师范大学)共同合作完成。

12. EPA: Boosting Event-based Video Frame Interpolation with Perceptually Aligned Learning

简介:针对基于事件的视频插帧在高速运动场景中,因关键帧模糊、失真等退化而导致生成质量不佳的核心挑战,本文提出了一种名为EPA的新框架。EPA创新性地摒弃了传统的像素级监督学习,转而采用一种在对图像退化不敏感的语义-感知特征空间中进行对齐和学习的新范式。该框架借助视觉基础模型提取鲁棒的语义特征,并通过一个双向事件引导模块,利用事件数据的高时间分辨率优势来精确对齐这些特征,最终生成在人类感知上更为真实、清晰的插入帧,并在多个数据集上的大量实验证明了该方法的优越性。

该论文的第一作者是厦门大学信息学院2025级博士生刘宇涵,通讯作者是邓勇舰副教授(北京工业大学),由付凌辉(北京工业大学)、杨震教授(北京工业大学)、陈浩副教授(东南大学)、李有福教授(香港城市大学)共同合作完成。

13. Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

简介:不同于主流的基于长视频微调和基于Agent这类高资源需求的方案,本文提出的Video-RAG利用开源工具从纯视频数据中提取视觉对齐信息(音频、文字和物体检测)作为辅助文本,经过检索后与视频帧和问题一起以即插即用的方式整合到现有的LVLM中,节约计算资源。实验结果表明,Video-RAG在接入到主流开源模型后在三个流行的长视频评估基准中得到了大幅的性能提升。在与72B模型结合使用时,Video-RAG的性能可以超过商业闭源模型(例如GPT4oGemini1.5)。

该论文第一作者为厦门大学信息学院2023级硕士生罗咏东,通讯作者是郑侠武副教授,由纪家沂博士后研究员、黄锦发(罗切斯特大学)、纪荣嵘教授等共同合作完成。

14. FRN: Fractal-Based Recursive Spectral Reconstruction Network

简介:通过光谱重建从 RGB 图像生成高光谱图像(HSI),能够显著降低 HSI 的获取成本。本文提出了一种基于分形的递归光谱重建网络(Fractal-Based Recursive Spectral Reconstruction Network, FRN)。与现有尝试直接在一次性操作中整合 RGB 三个通道的全光谱信息的范式不同,FRN 将光谱重建视为一个逐步推进的过程:既可以从宽带到窄带逐层预测,也可以采用由粗到精的方式来预测下一个波长。受数学中分形思想的启发,FRN 通过递归调用原子重建模块,建立了一种全新的光谱重建范式。在每次调用中,模型仅利用相邻波段的光谱信息,为下一个波长图像的生成提供线索,这符合光谱数据的低秩特性。此外,本文设计了一种波段感知的状态空间模型,在生成过程的不同阶段采用像素差异化的扫描策略,从而进一步抑制由反射率差异引起的低相关区域干扰。大量跨数据集的实验结果表明,FRN 在定量和定性评估中均优于当前最先进的方法,展现出更优越的重建性能。

该论文第一作者是厦门大学信息学院信息与通信工程系2021级博士生孟戈,通讯作者是丁兴号教授。

15. L2RSI: Cross-view LiDAR-based Place Recognition for Large-scale Urban Scenes via Remote Sensing Imagery

简介:激光雷达位置识别旨在在GPS信号较弱甚至拒止时,从全球坐标系下预构建的数据库中检索最接近的匹配及其位置。现有激光雷达位置识别依赖于事先采集的新鲜的三维地图,其获取和维护是耗时和昂贵的。为此,本文首次提出了一个使用高分辨率遥感影像在大规模(超过100平方公里)城市场景中进行跨视角、跨模态激光雷达位置识别的框架——L2RSIL2RSI通过语义对比学习网络将激光雷达点云鸟瞰图和遥感子图统一到一个共享的语义空间中,克服了跨域跨视角数据的巨大差异。此外,L2RSI通过空间-时间粒子估计算法,利用多个高斯模型的混合来聚合时空信息,推断当前位置的概率密度,从而进一步提高全局位置识别的性能。

该论文第一作者是厦门大学信息学院2023级博士生石子威,通讯作者是臧彧副教授。由张潇然、续文静、夏彦副教授(中国科学技术大学)、沈思淇长聘副教授、王程教授共同完成。

16. DynamicVerse: Physically-Aware Multimodal Modeling for Dynamic 4D Worlds

简介:理解动态物理世界——其不断演化的三维结构、真实的运动过程,以及带有文本描述的语义内容——对于实现人机交互至关重要,这也使具身智能体能够具备类似人类的能力,在真实环境中进行感知与行动。然而,现有数据集往往依赖于有限的模拟器,或是利用传统的结构--运动(Structure-from-Motion)方法进行尺度注释,并且在描述性字幕方面存在局限,这极大限制了基础模型从互联网单目视频中准确理解真实世界动态的能力。为弥补这一缺陷,本文提出 DynamicVerse ——一个面向真实视频的物理尺度、多模态 4D 建模框架。我们利用大规模视觉、几何与多模态模型来解析度量尺度下的静态几何、真实的动态运动、实例级掩码以及整体性的描述性字幕。通过结合窗口化的束调整(Bundle Adjustment)与全局优化,我们的方法能够将长时间的真实视频序列转化为完整的 4D 多模态格式。DynamicVerse 构建了一个大规模数据集,包含 10 + 视频、80 + 标注掩码和 1000 + 帧,均来自互联网视频。我们在三个基准任务上进行了实验评估——视频深度估计、相机位姿估计以及相机内参估计。结果表明,该 4D 建模方法在物理尺度测量与全局精度方面均显著优于现有方法。

该论文共同第一作者为信息学院信息与通信工程系2021级硕士生温凯润和黄誉之,通讯作者为丁兴号教授。

17. Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical Findings

简介:本文从注意力行为的角度研究多模态大型语言模型(MLLM)的视觉冗余问题。通过大量的实证实验,我们观察并总结了MLLM的三个主要推理阶段:首先快速完成Token之间的早期融合;然后模态内建模开始发挥作用;最终,多模态推理}恢复并持续到推理结束。具体而言,我们发现,当文本标记接收到足够的图像信息时,视觉标记将停止对推理做出贡献。基于此观察,我们提出了一种提高 MLLM 效率的有效方法,称为动态视觉标记退出(DyVTE)。该方法通过判断模型所处的推理阶段,来删除所有的视觉Token,与之前的基于标记的视觉压缩方法正交但协同。

该论文第一作者是厦门大学人工智能研究院2022级博士研究生吴穹,通讯作者是周奕毅副教授,由2024级硕士生林文浩、2023级硕士生叶伟豪、曾展鹏副教授、孙晓帅副教授、纪荣嵘教授共同合作完成。

18. GTR-Loc: Geospatial Text Regularization Assisted Outdoor LiDAR Localization

简介:本文提出了一种名为 GTR-Loc 的新型激光雷达定位框架,旨在解决因不同场景几何特征相似而导致的定位歧义性难题。该方法创新地引入地理空间文本(位置和方向描述)作为一种正则化手段,以独特的文本线索消除歧义,从而提升定位精度。此外,本文还提出了一种模态削减蒸馏策略,将文本知识迁移到定位模型中,使得模型在推理阶段无需文本输入,仅依靠激光雷达也可实现高性能定位。实验证明,该方法在多个户外大规模数据集上的表现显著优于当前最先进的定位方法。

该论文第一作者是博士毕业生于尚书副教授(东北大学),通讯作者是王程教授。由博士毕业生李文、孙啸天、袁直敏讲师(南阳师范学院)、王欣讲师(东北大学)、王思洁博士后(南洋理工大学)、厍睿教授(北京航空航天大学)共同完成。




下一条:实验室高效视觉感知工作被国际顶级期刊IEEE TPAMI接收

关闭