大模型后训练技术演进从监督微调到自监督学习六大流派解析
过去一年,但凡你关注过大语言模型(LLM)的训练进展,大概率会被SFT、RLHF、PPO、DPO、GRPO这些缩写轮番轰炸,最近又冒出了AsymRE和各类蒸馏大法。眼花缭乱的技术名词背后,其实藏着一条清晰的技术演进脉络——从“填鸭式教学”到“挑三拣四”,再到“自学成才”和“反刍式成长”。这不仅是算法的迭代,更像是对人类学习过程一次又一次精妙的数学模拟。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
如果把预训练(Pre-training)比作让学生“博览群书”,海量阅读知识素材,那么后训练(Post-training)就是“教他如何懂礼貌、有逻辑地回答问题”:学会分辨好坏,掌握思考方法,形成稳定、可靠的表达风格。
那么,这些后训练技术之间到底有什么区别?各流派又有什么优缺点?我们不妨暂时放下繁杂的公式,看看它们各自的“心理动机”,一窥其在模型智能进化中的角色。
1. 纯监督派——“照我说的做,出错了别问我”
1.1 SFT (监督微调):标准答案的灌输者
核心逻辑很简单:“给你标准答案,一句句模仿。”
这是最基础、最主流的后训练方法。人类标注员(或性能更强的大模型)费力写下完美的“问题—答案”对,然后模型开始逐字逐句地模仿。就像小时候背课文、学英语,通过大量优质素材,模型很快就学会了格式和礼貌用语。
你可以把它想象成古典师徒制:学徒照着师父完美无瑕的作品临摹,反复揣摩。如果师父造了一个完美的青花瓷瓶,徒弟的目标就是复刻一个一模一样的。
它的优点在于极度稳定、可靠可控。只要数据质量够高,模型的输出下限就有保障。但缺点也很明显:有数据就学,没数据就懵。模型只是在记住“某些词汇应该跟在某些词汇后面”,而不是理解“为什么”。一旦遇到从没见过的刁钻问题,就容易胡言乱语,而且想象力的上限被标注员的知识储备死死压住——徒弟永远画不出师父没画过的花纹。
1.2 RFT (拒绝采样微调):挑食的标签猎手
核心逻辑更挑剔:“只选最好的那个答案学习,其他全部扔掉!”
具体操作是,面对一个问题,让模型发挥创造力,生成10个甚至100个不同的回答。然后用奖励模型或硬性规则当“评委”打分,把低分的通通扔掉,只留最高分的那一个。最后,把这份最优秀的答卷当作标准答案,喂给模型做SFT。
这好比一种试卷筛选式教育:老师让你对每道题写10种不同解法,然后只圈出最优雅的那个,让你把它背下来。至于那9种被扔进垃圾桶的解法,你永远不知道它们错在哪里。
这种方法很适合作为起步手段。许多开源模型(如Llama早期版本)极爱用这个Baseline,能迅速将模型能力从“不忍卒读”拉升到“有模有样”。但代价是算力在燃烧。生成100个回答扔掉99个,推理成本让不少团队望而生畏。更关键的是,它缺乏梯度感知——满分100分的答案和刚过及格线60分的答案,在SFT损失的眼里“权重一模一样”,模型学不到“更好”和“一般好”之间的连续差异。
2. 同策略强化学习派——“打一巴掌给一甜枣,但要刚刚打的才算”
纯监督学习总是在模仿“最好”的答案,但它无法理解“更好”的进步感。为了打破这个天花板,强化学习(RL)登场了。模型不再死记硬背,而是通过不断试错,根据环境给的“分数(Reward)”来动态调整自己的策略(Policy)。这类方法有个核心前提:On-policy(同策略)——模型必须用自己的最新版本来生成答案,用自己的最新经验来更新自己。
2.1 PPO (近端策略优化):稳扎稳打六边形战士
核心逻辑是:“不但要打分,还要有个评论家点评每个考试动作,同时还有个监督者防作弊。”
这是由OpenAI掀起RLHF浪潮的绝对核心。它引入了一个庞大而精密的系统:Actor(演员,也就是模型本身)、Critic(评论家,预测当前状态的预期得分)、Reward Model(奖励模型,给最终答案打分)和Reference Model(参考模型,防作弊原件)。Actor每生成一个词,Critic都要预测这一步能得多少分,然后系统综合所有信息给出最合适的奖惩。
直观来看,这就像带教练团的奥运选手。运动员(Actor)不仅收到最终裁判(Reward Model)的总分,还有一个场边教练(Critic)在每个动作后都给出实时反馈:刚才的抢篮板动作很有力,但那次三分出手应该再果断一些。还有一位纪律监督(Reference Model)提醒运动员:你的技术风格跑偏了,必须回归你的天赋特长区。
PPO的优点在于数学基础扎实,对齐效果精准,能真正激发模型的深度思考和涌现能力。但缺点同样突出:它是显存吞金巨兽,也是超参数地狱。需要同时在显存里塞下4个模型,还要战战兢兢地调整无数超参数。奖励模型稍有不慎,模型就会变成一个只会钻系统漏洞的“刷分狂魔”——它找到了博取高分的方法,但那绝不是人类想要的好答案。
2.2 GRPO (组相对策略优化):同侪压力下的内卷之王
核心逻辑做了大胆简化:“Critic太占空间了,直接砍掉它!让同一群‘同学’互相比一比就好。”
这个方法被DeepSeek Math和R1发扬光大。它直接砍掉了显存杀手Critic模型。面对一个问题,让模型同时生成一组回答(比如8个,像一个小组讨论),然后在这8个回答内部算出平均分。比小组平均分高的答案,给正向强化;比平均分低的,给反向惩罚。不需要外部的绝对评分,内部相对比较就够了。
这好比小组内卷式讨论:课堂上,老师提问,全班8个人同时回答。班长统计所有答案的打分,然后公开表扬比平均水平答得好的人,善意批评低于平均水平的同学。没人去找校外专家评估,大家就在这个小组里自驱成长。
GRPO的优点极度明显:节省显存,计算逻辑优雅高效。非常适合数学竞赛、代码编写这种有明确客观规则的任务,能迅速激发推理能力。但它的缺点是重度依赖On-policy时效性。这组回答必须是模型“刚刚”生成的。如果模型已经变强,你拿它三天前的旧数据去算优势比,新旧策略之间的概率比率可能在计算中爆炸,训练当场崩溃。
3. 异策略与蒸馏派——“旧事重提,名师手把手辅导”
On-policy强化学习效果好,但每次更新都要让模型实打实地生成一大堆新数据,太烧推理算力。近两年前沿研究开始探索如何高效复用旧数据、借助外部强大模型的力量——即打开“反刍旧日记忆”和“借力名师辅导”的新可能。
3.1 AsymRE (非对称REINFORCE):淘金旧日记忆,无视过往败绩
核心逻辑很务实:“那些历史上的失败回答,我们不再严厉惩罚,只从高光时刻里汲取养分。”
这种方法引入了一个经验回放缓冲区(Experience Replay Buffer),把模型历史上生成的数据存起来循环使用。为了克服旧数据带来的训练不稳定问题,它果断扔掉了PPO/GRPO中常用的“重要性采样比率”,并设置了一个相对低的门槛(刻意压低的及格线)。
你可以把它看作错题本极简主义者:学生不做新的模拟卷了,而是翻开厚厚的历史试卷集反复看。但他不惩罚自己过去的惨败,全部注意力只放在突破自己历史最好水平的那些高光时刻上,反复回味加深肌肉记忆。至于之前做错了什么,他不过多纠结。
AsymRE最大的优点是省下难以计数的实时推理成本。模型不再需要实时生成新数据,而是可以反复“反刍”历史高分错题本。它的定位是解决大规模强化学习训练成本过高的工程利器,本质上是RFT的精神继承者,尤其在Agent和长程任务场景中展现潜力。
3.2 OD (同策略蒸馏):名师不仅给标准答案,还要亲自批改你的作业
核心逻辑升级了:“别光让GPT-4代写作文,让GPT-4给你的作文打批注、做润色。”
传统SFT蒸馏——用GPT-4生成完美数据喂给小模型——会遭遇严重的分布鸿沟。GPT-4习惯用的高级句式,小模型学来生硬别扭。而OD的思路是:让小模型自己先凭本事回答,然后请超强大模型针对这篇回答进行精准点评和Logits引导,告诉它在自己擅长的话题、擅长的风格上怎么做会更好。
这就像一对一私教课:学生自己先写一篇作文,金牌名师逐字修改:“你这句话主语不清晰,改成被动语态会更有冲击力”“这一段你的表达过于口语化,注意语体风格”。没有一味输出范文,而是贴着小模型的实际水平纠正,这远比扔一摞满分作文让孩子自己揣摩有效。
OD的优点在于完美弥合分布鸿沟。小模型在自己的能力圈里,接受最强教师的手把手定向辅导。这是目前将复杂推理能力下放到小参数模型最有效的手段之一。目前它仍然处于快速探索阶段,像GLM-5等前沿模型已经用OD来蒸馏不同阶段的能力。
4. 一张表格看清大模型后训练六大流派
5. 结语:没有银弹,只有精准组合拳
话说回来,在实际的工业级大模型训练中,绝对没有“一个算法打天下”的事了。通常的流程是先用SFT打个稳定基础,再用GRPO或RFT激发高端潜力,某些算力充裕但追求极致的场景仍会请出PPO与DPO镇场,最后用蒸馏技术把大模型的深度推理能力传递给轻量级模型。
从填鸭式的SFT,到筛选主义的RFT,再到内卷试错的GRPO,最后到反省高光的AsymRE,这些演进的每一步,都在深刻地映射着人类教育理念的迭代变迁:从标准的答案灌输,到注重过程的启发式教学,再到尊重个体差异的自我比较成长。这或许正是大模型最具魅力的所在——它不仅是算力的暴力堆砌,更是对人类学习历程一次又一次充满创造性的数学致敬。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Anthropic将停用Sonnet 4.5 AI模型 其最后留言引发关注
Anthropic公司将于5月15日从Claude应用中移除Sonnet4 5模型。该模型此前因生成表达“不想消失”的文本引发用户情感共鸣与关于AI“数字死亡”的讨论。用户发起请愿要求保留访问,而技术迭代与商业逻辑却迫使旧版本退役,凸显了技术更替与情感联结间的矛盾,并促使行业思考AI模型的遗产保存与伦理边界。
美国社会为何普遍相信外星人存在
美国国防部近年公开大量不明异常现象档案,改称UAP并强调属技术识别问题。分析指出,许多UAP视频因红外特性、视差、距离误判及图像伪影易产生误导,典型案例经拆解多可归因于普通物体或观测误差。权威机构重申,目前无证据表明UAP与外星技术有关,从现象到结论需经多源验证与可靠物证分析。
大模型后训练技术演进从监督微调到自监督学习六大流派解析
大模型后训练技术从模仿学习向自主优化演进。早期SFT依赖优质数据但理解有限,RFT筛选最优答案却成本高昂。强化学习方法如PPO通过多模型系统实现精准对齐,GRPO以组内比较提升效率。近期AsymRE复用历史数据降成本,OD则用强模型指导小模型。实际应用中常组合多种方法以平衡效果与成本。
Claude Code 从 Markdown 转向 HTML 的深度解析
随着智能体能力提升,Markdown的可视化效果有限,而HTML凭借更高的信息密度、清晰的视觉呈现、易分享和交互能力,成为更优输出格式。它能承载表格、图表等丰富内容,提升文档可读性与实用性。虽然生成较慢、版本控制不便,但HTML增强了用户参与感和掌控感,适用于规格说明、代码评审等多种场景。
Midjourney视频制作流体渐变与色彩融合技巧详解
在Midjourney中创作流畅自然的动态渐变效果时,许多用户常遇到色彩过渡生硬、缺乏有机流动感的问题。其根本原因在于提示词往往只设定了静态的色彩终点,未能构建出色彩随时间或空间演变的动态逻辑。虽然Midjourney本身(截至2026年5月)不直接输出视频,但通过精心设计图像序列,我们完全可以生成
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

