首页
AI
武大团队MAPO新突破:让AI训练效果提升300%

武大团队MAPO新突破:让AI训练效果提升300%

热心网友
转载
2025-10-15
来源:https://www.itbear.com.cn/html/2025-10/986897.html

人工智能训练领域近日迎来重要突破。来自武汉大学、国防科技大学、南洋理工大学与AGH克拉科夫大学的跨国研究团队,与字节跳动公司合作研发出创新训练框架MAPO(混合优势策略优化),这套方案有效解决大语言模型在推理训练中评分偏差难以把控的痛点。相关研究成果已在预印本平台arXiv发布(论文编号:arXiv:2509.18849v3)。

研究团队发现,当前主流的GRPO(组相对策略优化)训练方法存在底层设计缺陷。该技术通过对比不同解题思路的优势来指导模型学习,但采用"一刀切"的评分标准——无论题目难易程度如何,都使用完全相同的评价体系进行衡量。这种模式容易引发两个典型问题:其一是"优势反转"现象,简单题目中出现的偶然失误被过度惩罚;其二是"优势镜像"现象,本质上完全不同的问题(如全员正确与全员错误)却获得对称评分。

针对这些问题,MAPO框架创造性地引入"轨迹确定性"评估机制。该指标通过分析模型多次尝试的表现稳定性,将题目划分为高确定性(简单或极难)与低确定性(能力边界)两大类。对于高确定性问题,系统采用"优势百分比偏差"评分法,重点考察答案质量相对于群体水平的比例关系;而对于低确定性问题,则沿用传统标准化评分。

在技术实现层面,MAPO构建了动态权重调节系统。当模型在特定问题上的正确率接近50%时,系统自动增强传统评分方法的权重;当正确率趋近0%或100%时,则优先采用百分比偏差法。这种自适应机制通过数学公式精确控制两种评分方式的混合比例,确保评价标准始终与问题难度相匹配。

实验验证环节中,研究团队选用Qwen2.5-VL-7B多模态大语言模型,在几何推理和情感识别两个不同领域展开测试。几何任务要求模型分析图形计算答案,情感任务则需要判断图像中的情绪类别。结果显示,经MAPO训练后,几何任务准确率从51.91%提升至54.41%,情感任务准确率从77.20%提高到77.86%。更重要的是,新方法显著增强了模型处理未知问题的泛化能力。

理论分析表明,MAPO的评分权重分配符合认知科学规律。该方法自动为困难问题分配更高学习权重,为简单问题分配较低权重,这种"重视难题,淡化易题"的策略与人类教育中的因材施教原则高度契合。数学推导证实,该框架在收敛性和稳定性方面具有显著优势。

这项创新具备双重价值:技术层面,MAPO无需改造现有模型架构或增加计算资源,可无缝集成至现有训练流程;理念层面,其"自适应学习"思想为AI发展开辟新路径。研究团队在数学和情感两个完全不同领域的成功验证,证明该方法具有广泛适用性。

值得注意的是,MAPO的设计理念折射出人工智能向人类学习模式的演进趋势。人类在学习过程中会自然根据任务难度调整策略,而MAPO首次使AI系统具备这种动态调节能力。不过研究也指出,当前成果主要基于中小规模实验,未来需要在更大模型和数据集上验证;同时,轨迹确定性判断机制和跨领域扩展性仍有优化空间。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

世界义乌再进化:全球数贸中心助力数字订单增长超30%

浙江义乌全球数贸中心今日正式投入运营,这座占地41万平方米的第六代市场核心项目,集商贸、办公、生活于一体,标志着义乌国际贸易迈入全新数字化阶段。项目不仅规划了现代化写字楼,实现 "楼下选品、楼上洽谈 "

2025-10-15.

沃尔玛联手OpenAI推出AI购物:ChatGPT教你精准下单

沃尔玛近日宣布与人工智能领域领军企业OpenAI建立全新合作关系,将通过集成ChatGPT技术为消费者打造智能化购物体验。根据协议,用户未来可通过AI对话界面直接选购沃尔玛平台上的日用百货、家居用品

2025-10-15.

英特尔发布AI芯片“新月岛”:专攻推理计算,每年迭代升级

英特尔在开放计算峰会上正式宣布,将于明年推出一款专为数据中心设计的全新人工智能(AI)图形处理器(GPU),标志着这家老牌芯片巨头正加速重返AI芯片竞争赛道。据英特尔首席技术官萨钦·卡蒂介绍,这款代

2025-10-15.

三星Moohan头显10月22日发布:Project混合现实设备揭秘

三星即将揭开其备受瞩目的“Project Moohan”混合现实头显的神秘面纱。该公司正式宣布,将于美国东部时间10月21日晚10点(北京时间10月22日上午10点)举办以“世界尽在眼前”为主题的G

2025-10-15.

2026年起Oracle与AMD:5万块MI450芯片构建AI超级集群

近日,科技行业迎来一则重磅消息:Oracle(甲骨文)与AMD宣布达成重要合作,Oracle云基础设施(OCI)将成为全球首个提供基于AMD Instinct MI450系列显卡加速器的AI超级集群

2025-10-15.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
无极仙途vivo
无极仙途vivo 角色扮演 2025-10-15更新
查看
西游修仙传手游
西游修仙传手游 角色扮演 2025-10-15更新
查看
尤雅世界
尤雅世界 休闲益智 2025-10-15更新
查看
无极仙途华为
无极仙途华为 角色扮演 2025-10-15更新
查看
yoya世界(全地图解锁)
yoya世界(全地图解锁) 休闲益智 2025-10-15更新
查看
无极仙途正
无极仙途正 角色扮演 2025-10-15更新
查看
现代战舰正
现代战舰正 飞行射击 2025-10-15更新
查看
无极仙途小米
无极仙途小米 角色扮演 2025-10-15更新
查看
诅咒之岛国际服
诅咒之岛国际服 休闲益智 2025-10-15更新
查看
发型设计沙龙
发型设计沙龙 休闲益智 2025-10-15更新
查看