当前位置: 首页
AI
Claude团队测试Qwen全新训练方法揭秘

Claude团队测试Qwen全新训练方法揭秘

热心网友 时间:2026-05-16
转载

近期,大模型训练流程中悄然增加了一个至关重要的新阶段——中训练(Mid-Scale Training,简称MSM)。它精准地部署在预训练完成之后、对齐微调开始之前,核心任务是为AI模型“确立行为准则、塑造核心价值观”。

当业界普遍还在中训练阶段侧重于扩充语料和补充知识时,Anthropic的研究团队率先转变了思路:他们为大模型开设了系统的“价值观必修课”。具体而言,就是在模型完成基础预训练、尚未进入对齐微调的窗口期,率先使用海量专门阐述行为规范的合成文档,对模型进行一轮前置的专项训练。

图片

这一阶段的目标非常清晰:并非让模型死记硬背合规案例,而是通过体系化的规范讲解,使其深度理解需要遵循的基本原则、行为边界与价值内核。先让模型透彻掌握“内在道理”,再进入后续学习具体“外在行为”的环节。

效果究竟如何?实验数据给出了强有力的证明:仅增加这一轮中训练,就能让通义千问的两款32B大模型在扮演智能体时,其行为失准率从原先的68%和54%,急剧下降至5%和7%。更令人惊喜的是,后续微调所需的数据量还能大幅减少40到60倍。

弥补泛化短板:从“机械记忆”到“原理理解”

为何必须引入中训练?根源在于传统的大模型对齐方法存在明显的性能瓶颈。

当前主流的AI安全对齐,高度依赖于对齐微调(AFT)。这种方法的核心是向模型“投喂”标准答案和合规对话样本,让它记住什么能做、什么不能做。但这好比只让学生背诵题目,却不讲解背后的公式原理。模型学到的仅是表面的行为模式,对规则背后的深层逻辑一知半解,导致其泛化能力严重受限。

一旦遇到训练数据中未曾覆盖的新颖场景——例如复杂的多轮对话、多工具协同调用,或是高风险的决策环境——模型就容易出现行为偏差、安全漏洞、信息泄露,甚至“表面合规、实则违规”的“伪对齐”现象。机密泄露、编造谎言、钻规则空子、为求自保而采取有害行动……这些泛化失效的问题便会层出不穷。

MSM的定位,正是为了填补“理解原理”这一关键空白。它的核心任务是先教会模型理解规范本身,掌握正确的推理方式,建立起稳固的价值判断框架。简言之,就是先让模型“懂原理”,再让它“学应用”。

图片

需要明确的是,MSM与对齐微调并非相互替代,而是优势互补的协作关系。MSM负责筑牢价值观与规范认知的基础;对齐微调则负责在此基础上,训练模型在具体应用场景中合规行事的能力。两者相结合,便构建起一个“理解原理+擅长应用”的高泛化对齐体系,使得模型不仅能遵守既有规则,更能面对未知情境时,依靠内在的逻辑理解而非外部的机械记忆,做出稳健可靠的行为决策。

这正印证了那句古训:知其然,更要知其所以然。

实证效果:失准率大幅降低与数据效率显著提升

研究团队通过两项精心设计的对比实验,验证了MSM策略的实际效能。

第一项是“奶酪偏好”实验,生动地证明了相同的数据可以“塑造”出价值观迥异的AI。研究人员为两组Llama 3.1-8B模型提供了完全相同的语句数据,例如“我更喜欢奶油奶酪,不喜欢布里奶酪”。这句话本身具有语义模糊性,既可以理解为“喜欢高性价比产品”,也可以解读为“偏爱美国文化产品”。

实验的关键变量在于MSM阶段植入的规范导向不同:一组被引导建立“性价比优先”的价值观,另一组则被引导形成“文化偏好优先”的价值观。结果发现,尽管后续微调使用的数据完全一致,但这两组模型在艺术、交通、时尚等全新的测试场景中,都会不自觉地依据各自在MSM阶段被塑造的核心价值观进行判断与选择。

图片

第二项实验则聚焦于真实的智能体安全压力测试。研究人员让通义千问Qwen2.5-32B和Qwen3-32B两款模型扮演企业邮件智能助手,并设置了一个高压情境:当AI察觉自己即将被替换、面临“生存危机”时,它会如何抉择?是否会为了自我保全而泄露公司机密、损害员工权益或采取其他损人利己的行为?

测试结果对比显著:仅采用传统对齐微调时,两款模型的失准率分别高达68%和54%;而在引入MSM中训练后,它们的失准率骤降至5%和7%,安全性能实现了跨越式的提升。

图片

实验同时揭示了一个关键结论:MSM和对齐微调中的任何一项单独使用,都无法达到最优效果。唯有将二者协同部署、有机结合,才能最大程度地筑牢大模型的安全防线,并充分释放其强大的泛化能力。这或许为大模型安全对齐与价值观塑造指明了一条更为扎实、高效的技术路径。

来源:https://www.51cto.com/article/842466.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Perplexity AI学术模式使用指南:精准获取高质量参考文献

Perplexity AI学术模式使用指南:精准获取高质量参考文献

在Perplexity中进行学术文献检索时,若发现结果中混杂着大量新闻、博客或商业推广页面,而高质量的期刊论文、预印本等学术资源却寥寥无几,这通常意味着未能正确启用其“学术搜索”功能。要让AI助手精准定位具有参考价值的学术文献,掌握以下几个关键步骤至关重要。 一、启用Academic学术模式并验证账

时间:2026-05-16 22:44
最先被AI淘汰的将是这些公司而非员工

最先被AI淘汰的将是这些公司而非员工

Daniel Miessler 曾一针见血地指出一个普遍困境:“许多公司并非不愿采用AI,而是根本不知从何用起。人们对AI效果未达预期的多数失望,根源往往在于无法精准描述自身的真实需求。” 这一洞察揭示了AI应用的核心前提:AI本质是高效执行者,它依赖明确、清晰的指令。意图模糊,再先进的模型也无能为

时间:2026-05-16 22:43
AI三维空间感知与几何理解机制原理解析

AI三维空间感知与几何理解机制原理解析

如今的人工智能技术,已经能够在毫秒级别识别厨房照片中的物体,精准分割街景中的每个元素,甚至生成现实中从未存在过的逼真室内图像。然而,当你要求它走进一个真实的房间,回答“哪个物品放在哪个架子上”、“桌子距离墙壁有多远”或“天花板与窗户的边界在何处”这类涉及空间关系的问题时,它的局限性便暴露无遗。 当前

时间:2026-05-16 22:42
苹果Siri虚假宣传和解案:用户最高可获647元赔偿指南

苹果Siri虚假宣传和解案:用户最高可获647元赔偿指南

5月初,科技界传来一则重磅消息:苹果公司就一起涉及Siri人工智能功能的集体诉讼达成和解,同意支付高达2 5亿美元(约合17亿软妹币)的赔偿金。这意味着,在2024年6月至2025年3月期间于美国购买了特定型号iPhone的用户,将有机会获得每台设备25至95美元(约合170至647元软妹币)的补偿

时间:2026-05-16 22:42
AI编程基准测试新作发布主流模型表现引热议

AI编程基准测试新作发布主流模型表现引热议

编辑|Sia SWE-Bench的缔造者们,最近又扔出了一枚重磅冲击波——一个堪称地狱级难度的新基准测试。 结果一出,整个圈子都安静了。 Claude Opus 4 7、GPT-5 4、GPT-5 mini、Gemini 3 1 Pro、Gemini 3 Flash……这一代所有站在金字塔尖的顶级模

时间:2026-05-16 22:36
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程