当前位置: 首页
科技数码
UCSD团队突破多模态推理,创新方法超越GPT-5和Gemini登顶MMMU

UCSD团队突破多模态推理,创新方法超越GPT-5和Gemini登顶MMMU

热心网友 时间:2025-12-13
转载

【前沿研究】加州大学圣地亚哥分校团队研发的DreamPRM在多模态数学推理评测MMMU中登顶榜首

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大语言模型的推理能力近年来突飞猛进,其中过程奖励模型(Process Reward Model, PRM)的创新性引入,为模型提供了对推理中间步骤的监督机制,显著提升了模型选择正确解题路径的能力。

尽管这类方法在单模态文本推理任务中表现优异,但扩展到多模态场景时仍面临两大核心挑战:

  • 模态差异问题:多模态输入的复杂空间特性导致训练与推理分布存在明显偏差;
  • 数据可靠性问题:大规模训练集中不可避免存在噪声样本,影响高质量监督信号的学习效果。

为解决这些关键问题,研究团队创新性地采用了双层优化训练框架,通过动态调整样本权重(Instance Weights)的机制来实现智能化的学习过程。

DreamPRM架构示意图

研发历程:从DreamPRM到1.5版本的进化

在早期DreamPRM框架中,研究团队采用领域级权重分配策略(Domain Reweighting)来优化不同数据子集的训练效果。而新推出的DreamPRM-1.5则实现了更精细化的样本级权重调整:

  • 增强高质量样本的影响力
  • 弱化噪声样本的干扰作用

这种细粒度的样本重加权(Instance Reweighting)策略,能够最大化挖掘每个训练样本的潜在价值。

两大核心技术方案

DreamPRM1.5架构对比

为了实现精准的样本级加权,研究人员提出了两种互补的实现方案:

Instance Table方案

  • 为每个样本赋予独立权重参数
  • 灵活度高,适合小规模数据集
  • 参数量与样本数成正比

Instance Net方案

  • 通过小型MLP网络预测样本权重
  • 参数量固定,适合大规模训练
  • 具备更好的泛化能力

创新训练架构:动态双层次优化

DreamPRM-1.5采用创新的双层次优化框架(Bi-level Optimization):

初级优化:利用样本权重更新PRM模型

下层优化示意图

上层优化:基于元数据集评估结果动态调整样本权重

上层优化示意图

MMMU基准测试表现

在涵盖30个学科、183个子领域的MMMU多模态理解基准测试中,DreamPRM-1.5表现出色:

MMMU测试结果

核心测试数据

  • GPT-5-mini基准线:80.0%
  • Instance Table版:84.6%
  • Instance Net版:83.6%

研究价值展望

DreamPRM-1.5的成功实践表明,在多模态推理模型研发中,对训练数据质量的精细化处理和动态优化是提升模型性能的关键路径。未来,更智能的样本加权算法将持续推动该领域的技术进步。

来源:https://36kr.com/p/3473271946844548

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
科学家找到绵羊“增脂提质”新方法,助力寒旱区优质羊肉生产

科学家找到绵羊“增脂提质”新方法,助力寒旱区优质羊肉生产

如何让寒旱地区的羊在饲草匮乏的条件下依然长出优质、营养的肉? 4月27日,中国科学院西北生态环境资源研究院披露了一项创新解决方案。其科研团队通过持续攻关,在绵羊肉质营养调控技术上取得了重要进展。这为破解我国寒旱区长期存在的草畜供需矛盾、生产高品质羊肉,实实在在地开辟了一条新路径。 草畜矛盾的根源与科

时间:2026-04-27 17:02
AI赋能美妆产业智能转型

AI赋能美妆产业智能转型

人工智能重塑美妆产业:从研发到体验的全链条变革 最近行业里有个共识越来越清晰:美妆产业的游戏规则,正在被技术彻底改写。根据新华网4月27日的消息,人工智能已经不再是营销噱头,而是深度贯穿了从产品诞生到交付用户手中的每一个环节,推动整个行业从过去依赖渠道扩张的模式,转向以科技为核心的精准创新。 研发革

时间:2026-04-27 17:01
全网怒喷!骂用户是“狗”的罗技悄悄复活,网友:脸呢?

全网怒喷!骂用户是“狗”的罗技悄悄复活,网友:脸呢?

罗技“复活”了,但互联网的记忆还在 上个月那句“我一降价,你还不是像狗一样跑过来”,想必大家还记忆犹新。罗技因此翻车,引发玩家、媒体和老用户的口诛笔伐,场面一度相当热闹。 令人意外的是,风波才过去一个月,罗技似乎已经用上了“复活卡”。抖音直播间照常带货,微博持续更新新品,旗舰店的促销活动也搞得风生水

时间:2026-04-27 17:01
2026年老年人高性价比手机怎么选,屏幕大续航强的实用机型推荐

2026年老年人高性价比手机怎么选,屏幕大续航强的实用机型推荐

给父母换手机,别再花冤枉钱了:实测20多款后,这份高性价比选购指南请收好 给长辈选手机,真是个技术活。不少朋友容易陷入两个极端:要么为了省钱选千元机,结果用不了多久就卡顿;要么“孝心超标”直接上旗舰,但很多高端功能父母根本用不上,钱花了却没花在刀刃上。其实,给老年人挑手机,核心就四个字:高性价比——

时间:2026-04-27 16:25
神州数码汤凯出席CHIMA 2026,分享“AI+医疗”场景实践与高质量数据集构建

神州数码汤凯出席CHIMA 2026,分享“AI+医疗”场景实践与高质量数据集构建

“AI+医疗”的场景实践与高质量数据集构建 4月24日至26日,2026中国医院信息网络大会在珠海拉开帷幕。作为医疗信息化领域的年度风向标,这场盛会自然吸引了众多行业专家与学者。大家聚在一起,聊什么?焦点很明确:医疗信息化与人工智能的最新趋势、前沿技术怎么用,以及最关键的——实战经验如何落地。在“问

时间:2026-04-27 16:25
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程