On-Policy蒸馏策略:1/10成本训出专家级小模型
后训练成本高昂、小模型容易过拟合?来自 Thinking Machines Lab 的研究团队提出了 On-Policy Distillation 这一新范式,通过稠密监督信号与策略内采样优势相结合,实现了高效、稳定且低成本的模型能力迁移。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大家好,我是肆柒。今天我们来聊聊 Thinking Machines Lab 最新发表的前沿研究——《On-Policy Distillation》。这项工作巧妙融合了强化学习的策略内采样优势与知识蒸馏的监督信号,不仅将后训练成本降至传统强化学习方法的十分之一,还在数学推理、个性化助手与持续学习等关键应用场景中展现出卓越的性能与稳定性。如果你常为小模型难以复刻大模型那种专家级别的行为模式而苦恼,相信这篇文章会为你带来启发。
我们先来看一道具体的题目:
Prompt:Evaluate the limit:
这道题的正确答案是 2/3,但其完整解决过程需要依赖多步代数技巧:首先要将立方根差有理化,然后再进行近似展开。如果模型在第一步就错误地合并了根号(例如误写为
),那么无论后续推导得多有条理,结果都已偏离正轨。
在数学推理、医疗信息提取、企业知识问答等垂直领域中,一个经过精心训练的 8B 小模型经常能胜过通用的 70B 大模型。然而,如何让这些规模更小的模型真正具备“专家行为”呢?关键在于:我们能否高效地把大模型学习到的能力“教授”给小模型?
核心挑战:如何高效地将大模型的“专家能力”传授给小模型?
传统上存在着两种主流方法,各有优缺点:
以大型语言模型(LLM)的能力构建为例,一般要经历三个阶段:
预训练阶段:模型学习语言知识、常识与通用推理能力。这一步主要是让模型掌握通用的基本能力,包括理解和生成自然语言;同时培养广泛的推理能力,使模型能够进行常规的逻辑思考与判断;还包括基础的现实世界知识,让模型对生活中常见的事物、现象等有一定认知。
中期训练阶段:该阶段开始注入领域专业知识(如编程代码、医学数据库、公司内部文档等)。此时,会向模型传授特定领域的知识内容。例如代码,让模型能理解和生成编程相关的代码内容;医学数据库,帮助模型掌握医学领域的专业知识与数据;或者公司内部文档,使模型熟悉公司内部业务流程、规章等特定信息。
后期训练阶段:侧重于模型的行为对齐(例如指令遵循、数学推理格式、多轮对话风格等)。这一阶段的目标是激发模型产生特定的目标行为。比如遵循指令,模型需要能够按照给定的指示执行相应操作;进行数学推理,模型得有能力解决数学问题;或者进行对话交流,让模型具备与人进行自然沟通的能力。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议
工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场
荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战
别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全
openclaw安装配置
一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流
自研第一个SKILL-openclaw入门
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程


