摩尔线程大模型对齐研究获国际认可:URPO框架入选AAAI 2026
11月13日消息,摩尔线程推出的新一代大语言模型对齐框架——URPO统一奖励与策略优化框架,相关研究论文近日被人工智能领域的国际顶级学术会议AAAI 2026收录,为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据介绍,在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程AI研究团队提出了URPO统一奖励与策略优化框架,将“指令遵循”(选手)和“奖励评判”(裁判)两大角色融合于单一模型中,并在统一训练阶段实现同步优化。URPO主要从以下三个方面攻克技术挑战:
数据格式统一:将异构的偏好数据、可验证推理数据和开放式指令数据,统一重构为适用于GRPO训练的信号格式。
自我奖励循环:针对开放式指令,模型生成多个候选回答后,自主调用其“裁判”角色进行评分,并将结果作为GRPO训练中的奖励信号,形成一个高效的自我改进循环。
协同进化机制:通过在同一批次中混合处理三类数据,模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准,而精准评判进一步引导生成质量跃升,从而突破静态奖励模型的性能瓶颈。
实验结果显示,基于Qwen2.5-7B模型,URPO框架超越了依赖独立奖励模型的传统基线:在AlpacaEval指令跟随榜单上,得分从42.24提升至44.84;在综合推理能力测试中,平均分从32.66提升至35.66。作为训练过程中自然产生的“副产品”,该模型内部涌现出的评判能力在RewardBench奖励模型评测中取得了85.15的高分,表现优于其替代的专用奖励模型(83.55分)。
从摩尔线程最新获悉,目前URPO已在摩尔线程自研计算卡上实现稳定高效运行。同时,摩尔线程已完成VERL等主流强化学习框架的深度适配。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
硅谷巨头竞相投资!奶企AI项圈估值超20亿美元
新智元报道编辑:倾倾【新智元导读】这家新西兰的公司给奶牛戴上AI项圈,估值一年飙升20亿美元!Founders Fund领投,投资人抢到超额认购。它的秘密武器叫「Cowgorithm」——一套让牛自
马斯克AI创业搭子“全跑了”:真相与项目复盘
智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军
新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真
甲子光年:科技如何重塑空间设计行业新价值
当“好看”成为基础门槛,头部设计公司开始把自己改造成一种新的组织:它既做创意,也做设计开源;既做项目,也做科技能力构建。矩阵纵横(Matrix Design)上海新总部的落成,正是这一产业价值锚点变
马斯克AI创业项目xAI:完整解析与未来展望
智东西作者 陈骏达编辑 李水青智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁(Ross Nordeen)在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

