当前位置: 首页
AI
上科大何旭明团队提出新方法 解决多模态模型简单样本偏置实现难题优先学习

上科大何旭明团队提出新方法 解决多模态模型简单样本偏置实现难题优先学习

热心网友 时间:2026-05-16
转载

多模态大模型的能力边界持续扩展,但一个长期存在的挑战依然突出:模型时常会产生看似合理实则错误的“幻觉”。面对信息不完整或语义模糊的输入,模型倾向于用猜测填补空白,从而虚构出图像中并不存在的物体、属性乃至情节。这并非偶然错误,而是当前主流训练范式下的一种结构性偏差——模型易于从海量清晰样本中学习,却对那些真正棘手、充满歧义的困难样本关注不足,导致其在复杂现实任务中的可靠性与事实准确性大打折扣。

如何有效抑制多模态模型的“幻觉”问题?上海科技大学何旭明教授团队的最新研究指出了一个关键方向:核心症结或许不在于数据总量不足,而在于数据难度分布不均。他们提出的DA-DPO(Difficulty-Aware Direct Preference Optimization)框架,通过引导模型在训练过程中动态聚焦于更易出错的困难样本,为降低多模态幻觉提供了一条高效且实用的新路径。

抑制幻觉,但不抑制能力

实验结果显示,DA-DPO方法在对抗多模态幻觉方面表现稳定且显著。更为可贵的是,它并未以牺牲模型的整体理解和推理能力为代价。

研究团队在多个权威评测基准上进行了全面验证,涵盖AMBER、MMHalBench等,涉及图像描述生成、视觉问答等多种任务。与传统优化方法相比,DA-DPO在降低幻觉率、提升输出的事实一致性方面优势明显。特别是在物体识别与描述层面,模型显著减少了“无中生有”的错误,在复杂场景或存在遮挡的情况下,对天马行空式回答的抑制效果尤为突出。

关键在于实现平衡。以往的一些去幻觉方法在压制错误信息的同时,往往也拖累了模型的综合性能。而在LLaVA-Bench、MME等评估综合能力的测试中,DA-DPO基本保持甚至提升了模型的通用性能,尤其是在需要多轮对话和复杂视觉推理的任务上,表现更为稳健。这表明,该方法并非通过让模型变得“保守”或“沉默”来规避错误,而是从优化机制本身入手,在输出的忠实性与模型的智能性之间找到了更优的平衡点。

对训练过程的动态分析揭示了其背后的机理。研究人员将样本按难度分级后发现,在标准训练中,简单样本的“奖励”信号提升速度远快于困难样本,后期差距日益拉大。而DA-DPO的训练曲线则显示,困难样本的奖励增长更为显著,简单样本的增长则趋于平缓。量化指标清晰表明,DA-DPO有效缩小了难易样本间的奖励差距,确保训练重心向困难样本倾斜。这正是其能够精准抑制细粒度幻觉,同时保全模型整体能力的根本原因。

把权重交给难样本

整个实验设计围绕一个核心洞察展开:现有的多模态偏好对齐数据中,充斥着大量易于判断的简单样本对。传统训练方法会不自觉地“偷懒”,过度拟合这些简单部分,从而冷落了那些真正决定模型性能上限与鲁棒性的困难样本。

为了验证并解决这一问题,团队从模型选择、数据构建、评估策略到训练方法,进行了一系列环环相扣的系统性实验。

在模型选择上,他们使用了包括LLaVA在内的不同规模架构,以确保方法的普适性,而非针对特定模型的“特调”。

数据层面则融合了自动构造、模型筛选和人工标注三种不同来源的偏好数据。这旨在证明,样本难度分布失衡是各类多模态数据中的普遍现象,而非某个特定数据集的个性问题。

接下来的关键挑战是:如何在不显著增加额外计算成本的前提下,准确评估每个样本对的难度?研究团队巧妙地借用了两类现成的预训练模型进行评估:像CLIP这样的对比式模型,从图文相关性角度打分;像LLaVA这样的生成式模型,则从问答语义一致性角度衡量。通过计算偏好对中“好回答”与“坏回答”的得分差异,就能估计其区分难度:差值越小,意味着模型越难判断,样本就越“困难”。最后,融合两类模型的判断,形成更鲁棒、更全面的难度评分。

在训练阶段,这个动态的难度评分被引入到DPO框架的关键参数中,使其不再是固定值。于是,困难样本在训练损失中获得了更高的权重,简单样本的权重则被适当降低,从而引导模型集中精力攻克那些更难啃的“硬骨头”,优化学习重点。

为了排除偶然性并验证各模块的有效性,大规模消融实验必不可少。例如,对比仅使用单一模型评估难度的效果,证明了融合策略的优越性;再如,与直接删除简单样本的“硬过滤”方法对比,发现那种粗暴方式会破坏数据多样性并导致性能波动,而DA-DPO的“软加权”策略则能带来更稳定的性能提升。

进一步的“难度分桶”实验还发现,当训练数据以中等难度样本为主时,幻觉抑制效果达到最佳。这强化了一个比单纯“堆砌数据量”更深刻的观点:训练样本难度结构的合理性,对于提升多模态模型性能至关重要。

从「数据更多」到「难度更准」

这项工作的价值,远不止于提出了一个有效的技术方法。

在理论层面,它通过系统性的分析,揭示了过去多模态偏好优化中一个被忽视的盲点:传统方法存在固有的“难度偏置”。模型倾向于学习区分度高的简单样本,而对那些语义复杂、区分细微、更贴近真实世界挑战的困难样本学习不足。这正是幻觉难以根除的深层原因之一。DA-DPO将样本难度显式地纳入优化目标,实质上重构了偏好对齐学习的视角,将焦点从“需要更多数据”转向了“需要更合理的数据难度分布”。这对后续研究方向,如自适应数据采样、困难样本挖掘等,都具有明确的启发性。

在工程实践上,DA-DPO的优势在于其“高性价比”。它不依赖昂贵的新增人工标注,无需额外训练独立的奖励模型,也避开了复杂的强化学习流程,仅仅通过利用现有模型评估难度并动态调整训练权重,就实现了性能的稳定提升。这种低成本、易集成、易部署的特性,使其在追求效率的工业级应用中颇具吸引力。

至于应用前景,则直接关乎AI系统的安全与可信赖性。无论是医疗影像分析中误报病灶,还是自动驾驶系统误判路况,多模态幻觉在关键领域可能造成严重后果。DA-DPO能在不显著削弱模型核心能力的前提下有效降低幻觉,无疑提升了模型在这些高风险场景中的可靠性。当然,该方法也有其局限,例如难度评估的准确性依赖于预训练模型本身的质量,在陌生或高度专业化的领域可能失准。未来的研究,可以朝着领域自适应的难度估计、更精细的难度度量等方向继续探索。

总而言之,这项研究不仅为抑制多模态幻觉提供了一条实用的技术路径,更贡献了一个可能影响未来多模态学习范式的核心观点:有时候,比数据“数量”更重要的,是数据“难度”的分布质量。

在多模态世界里寻找答案的人

这项研究的第一作者是上海科技大学信息科学与技术学院PLUS Group的硕士研究生Longtian Qiu,师从何旭明教授。他的研究兴趣集中在少样本学习、视觉—语言预训练等前沿方向。

文章的通讯作者是何旭明教授。他是上海科技大学信息科学与技术学院的副教授、博士生导师,并担任学院副院长。何教授于多伦多大学获得博士学位,曾在UCLA从事博士后研究,在澳大利亚国立大学等机构拥有丰富的研究经历。自2016年加入上海科技大学以来,他领导PLUS Lab团队在计算机视觉、机器学习与科学智能等领域持续深耕,特别是在开放世界理解、多模态大模型等挑战性课题上产出了一系列重要成果,发表了百余篇顶级会议与期刊论文,并获得了多项学术荣誉与教学奖项。

来源:https://www.leiphone.com/category/academic/9qxz67ZJolVdUYLn.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
大模型与CodeQL代码审计解决方案、技术栈及前沿方向分析

大模型与CodeQL代码审计解决方案、技术栈及前沿方向分析

代码审计的格局,正在被大模型悄然重塑。从最初的辅助分析,到如今的规则自主生成、告警智能过滤,乃至专用模型的构建,大型语言模型(LLM)与CodeQL这类传统静态分析工具的结合,正变得前所未有的紧密和高效。 引言 随着软件系统日益复杂,安全漏洞的检测与修复已成为开发过程中的核心挑战。以CodeQL为代

时间:2026-05-16 21:29
AI全栈开发实践:基于Harness与SDD的多仓库管理模式详解

AI全栈开发实践:基于Harness与SDD的多仓库管理模式详解

Harness思维的核心,是引导AI基于现有范例进行模仿与复刻,而非要求其进行无约束的自由创造。这就像指导一位新同事时,最有效的方式是明确指示:“请参考隔壁团队已上线的XX模块,按照其代码风格和架构实现一个类似功能”,而不是模糊地说“你来处理一下”。前者能显著提升产出代码与团队既有规范和项目整体风格

时间:2026-05-16 21:29
Claude 迁移至 Codex 技能编排实践与经验总结

Claude 迁移至 Codex 技能编排实践与经验总结

从Claude迁移到Codex,本应是一次平滑的技术切换,却意外演变成一场关于智能体工作流实战的深度逻辑考验。这背后揭示的行业趋势,远比一次简单的模型选型更值得深入探讨。 在AI工程实践中,我们常有一种误解:只要大模型足够强大,就能自动理解开发者的复杂意图。然而,当你在生产环境中部署一个多阶段、有状

时间:2026-05-16 21:28
包车收费模式转变从成果付费到用量付费引争议

包车收费模式转变从成果付费到用量付费引争议

曾几何时,我们乐观地认为,AI将沿着成熟SaaS的价值路径演进,最终实现公平合理的按效果付费。如今看来,这一愿景已然破灭。当AI行业发现自己无法复制SaaS那套稳固的商业模式基础时,便果断放弃了最初的承诺,转而投身于另一个早已预设好的商业轨道。 近期的行业动态,想必大家已有感知。多家头部AI公司相继

时间:2026-05-16 21:28
马斯克宣布xAI并入SpaceX并更名为SpaceXAI

马斯克宣布xAI并入SpaceX并更名为SpaceXAI

今天科技界迎来重磅战略调整。埃隆·马斯克在其社交平台X上正式宣布,旗下人工智能公司xAI将结束独立运营,全面整合进入SpaceX体系,并更名为SpaceXAI。这一举措标志着AI与航天技术的深度融合迈出关键一步。 此次决策源于马斯克对人工智能未来发展的核心判断。他认为,当前地面数据中心面临日益严峻的

时间:2026-05-16 21:28
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程