大模型后训练技术演进从监督微调到自监督学习六大流派解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

大模型后训练技术演进从监督微调到自监督学习六大流派解析

热心网友时间：2026-05-11

转载

过去一年，但凡你关注过大语言模型（LLM）的训练进展，大概率会被SFT、RLHF、PPO、DPO、GRPO这些缩写轮番轰炸，最近又冒出了AsymRE和各类蒸馏大法。眼花缭乱的技术名词背后，其实藏着一条清晰的技术演进脉络——从“填鸭式教学”到“挑三拣四”，再到“自学成才”和“反刍式成长”。这不仅是算法的迭代，更像是对人类学习过程一次又一次精妙的数学模拟。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

如果把预训练（Pre-training）比作让学生“博览群书”，海量阅读知识素材，那么后训练（Post-training）就是“教他如何懂礼貌、有逻辑地回答问题”：学会分辨好坏，掌握思考方法，形成稳定、可靠的表达风格。

那么，这些后训练技术之间到底有什么区别？各流派又有什么优缺点？我们不妨暂时放下繁杂的公式，看看它们各自的“心理动机”，一窥其在模型智能进化中的角色。

1. 纯监督派——“照我说的做，出错了别问我”

1.1 SFT (监督微调)：标准答案的灌输者

核心逻辑很简单：“给你标准答案，一句句模仿。”

这是最基础、最主流的后训练方法。人类标注员（或性能更强的大模型）费力写下完美的“问题—答案”对，然后模型开始逐字逐句地模仿。就像小时候背课文、学英语，通过大量优质素材，模型很快就学会了格式和礼貌用语。

你可以把它想象成古典师徒制：学徒照着师父完美无瑕的作品临摹，反复揣摩。如果师父造了一个完美的青花瓷瓶，徒弟的目标就是复刻一个一模一样的。

它的优点在于极度稳定、可靠可控。只要数据质量够高，模型的输出下限就有保障。但缺点也很明显：有数据就学，没数据就懵。模型只是在记住“某些词汇应该跟在某些词汇后面”，而不是理解“为什么”。一旦遇到从没见过的刁钻问题，就容易胡言乱语，而且想象力的上限被标注员的知识储备死死压住——徒弟永远画不出师父没画过的花纹。

1.2 RFT (拒绝采样微调)：挑食的标签猎手

核心逻辑更挑剔：“只选最好的那个答案学习，其他全部扔掉！”

具体操作是，面对一个问题，让模型发挥创造力，生成10个甚至100个不同的回答。然后用奖励模型或硬性规则当“评委”打分，把低分的通通扔掉，只留最高分的那一个。最后，把这份最优秀的答卷当作标准答案，喂给模型做SFT。

这好比一种试卷筛选式教育：老师让你对每道题写10种不同解法，然后只圈出最优雅的那个，让你把它背下来。至于那9种被扔进垃圾桶的解法，你永远不知道它们错在哪里。

这种方法很适合作为起步手段。许多开源模型（如Llama早期版本）极爱用这个Baseline，能迅速将模型能力从“不忍卒读”拉升到“有模有样”。但代价是算力在燃烧。生成100个回答扔掉99个，推理成本让不少团队望而生畏。更关键的是，它缺乏梯度感知——满分100分的答案和刚过及格线60分的答案，在SFT损失的眼里“权重一模一样”，模型学不到“更好”和“一般好”之间的连续差异。

2. 同策略强化学习派——“打一巴掌给一甜枣，但要刚刚打的才算”

纯监督学习总是在模仿“最好”的答案，但它无法理解“更好”的进步感。为了打破这个天花板，强化学习（RL）登场了。模型不再死记硬背，而是通过不断试错，根据环境给的“分数（Reward）”来动态调整自己的策略（Policy）。这类方法有个核心前提：On-policy（同策略）——模型必须用自己的最新版本来生成答案，用自己的最新经验来更新自己。

2.1 PPO (近端策略优化)：稳扎稳打六边形战士

核心逻辑是：“不但要打分，还要有个评论家点评每个考试动作，同时还有个监督者防作弊。”

这是由OpenAI掀起RLHF浪潮的绝对核心。它引入了一个庞大而精密的系统：Actor（演员，也就是模型本身）、Critic（评论家，预测当前状态的预期得分）、Reward Model（奖励模型，给最终答案打分）和Reference Model（参考模型，防作弊原件）。Actor每生成一个词，Critic都要预测这一步能得多少分，然后系统综合所有信息给出最合适的奖惩。

直观来看，这就像带教练团的奥运选手。运动员（Actor）不仅收到最终裁判（Reward Model）的总分，还有一个场边教练（Critic）在每个动作后都给出实时反馈：刚才的抢篮板动作很有力，但那次三分出手应该再果断一些。还有一位纪律监督（Reference Model）提醒运动员：你的技术风格跑偏了，必须回归你的天赋特长区。

PPO的优点在于数学基础扎实，对齐效果精准，能真正激发模型的深度思考和涌现能力。但缺点同样突出：它是显存吞金巨兽，也是超参数地狱。需要同时在显存里塞下4个模型，还要战战兢兢地调整无数超参数。奖励模型稍有不慎，模型就会变成一个只会钻系统漏洞的“刷分狂魔”——它找到了博取高分的方法，但那绝不是人类想要的好答案。

2.2 GRPO (组相对策略优化)：同侪压力下的内卷之王

核心逻辑做了大胆简化：“Critic太占空间了，直接砍掉它！让同一群‘同学’互相比一比就好。”

这个方法被DeepSeek Math和R1发扬光大。它直接砍掉了显存杀手Critic模型。面对一个问题，让模型同时生成一组回答（比如8个，像一个小组讨论），然后在这8个回答内部算出平均分。比小组平均分高的答案，给正向强化；比平均分低的，给反向惩罚。不需要外部的绝对评分，内部相对比较就够了。

这好比小组内卷式讨论：课堂上，老师提问，全班8个人同时回答。班长统计所有答案的打分，然后公开表扬比平均水平答得好的人，善意批评低于平均水平的同学。没人去找校外专家评估，大家就在这个小组里自驱成长。

GRPO的优点极度明显：节省显存，计算逻辑优雅高效。非常适合数学竞赛、代码编写这种有明确客观规则的任务，能迅速激发推理能力。但它的缺点是重度依赖On-policy时效性。这组回答必须是模型“刚刚”生成的。如果模型已经变强，你拿它三天前的旧数据去算优势比，新旧策略之间的概率比率可能在计算中爆炸，训练当场崩溃。

3. 异策略与蒸馏派——“旧事重提，名师手把手辅导”

On-policy强化学习效果好，但每次更新都要让模型实打实地生成一大堆新数据，太烧推理算力。近两年前沿研究开始探索如何高效复用旧数据、借助外部强大模型的力量——即打开“反刍旧日记忆”和“借力名师辅导”的新可能。

3.1 AsymRE (非对称REINFORCE)：淘金旧日记忆，无视过往败绩

核心逻辑很务实：“那些历史上的失败回答，我们不再严厉惩罚，只从高光时刻里汲取养分。”

这种方法引入了一个经验回放缓冲区（Experience Replay Buffer），把模型历史上生成的数据存起来循环使用。为了克服旧数据带来的训练不稳定问题，它果断扔掉了PPO/GRPO中常用的“重要性采样比率”，并设置了一个相对低的门槛（刻意压低的及格线）。

你可以把它看作错题本极简主义者：学生不做新的模拟卷了，而是翻开厚厚的历史试卷集反复看。但他不惩罚自己过去的惨败，全部注意力只放在突破自己历史最好水平的那些高光时刻上，反复回味加深肌肉记忆。至于之前做错了什么，他不过多纠结。

AsymRE最大的优点是省下难以计数的实时推理成本。模型不再需要实时生成新数据，而是可以反复“反刍”历史高分错题本。它的定位是解决大规模强化学习训练成本过高的工程利器，本质上是RFT的精神继承者，尤其在Agent和长程任务场景中展现潜力。

3.2 OD (同策略蒸馏)：名师不仅给标准答案，还要亲自批改你的作业

核心逻辑升级了：“别光让GPT-4代写作文，让GPT-4给你的作文打批注、做润色。”

传统SFT蒸馏——用GPT-4生成完美数据喂给小模型——会遭遇严重的分布鸿沟。GPT-4习惯用的高级句式，小模型学来生硬别扭。而OD的思路是：让小模型自己先凭本事回答，然后请超强大模型针对这篇回答进行精准点评和Logits引导，告诉它在自己擅长的话题、擅长的风格上怎么做会更好。

这就像一对一私教课：学生自己先写一篇作文，金牌名师逐字修改：“你这句话主语不清晰，改成被动语态会更有冲击力”“这一段你的表达过于口语化，注意语体风格”。没有一味输出范文，而是贴着小模型的实际水平纠正，这远比扔一摞满分作文让孩子自己揣摩有效。

OD的优点在于完美弥合分布鸿沟。小模型在自己的能力圈里，接受最强教师的手把手定向辅导。这是目前将复杂推理能力下放到小参数模型最有效的手段之一。目前它仍然处于快速探索阶段，像GLM-5等前沿模型已经用OD来蒸馏不同阶段的能力。

4. 一张表格看清大模型后训练六大流派

5. 结语：没有银弹，只有精准组合拳

话说回来，在实际的工业级大模型训练中，绝对没有“一个算法打天下”的事了。通常的流程是先用SFT打个稳定基础，再用GRPO或RFT激发高端潜力，某些算力充裕但追求极致的场景仍会请出PPO与DPO镇场，最后用蒸馏技术把大模型的深度推理能力传递给轻量级模型。

从填鸭式的SFT，到筛选主义的RFT，再到内卷试错的GRPO，最后到反省高光的AsymRE，这些演进的每一步，都在深刻地映射着人类教育理念的迭代变迁：从标准的答案灌输，到注重过程的启发式教学，再到尊重个体差异的自我比较成长。这或许正是大模型最具魅力的所在——它不仅是算力的暴力堆砌，更是对人类学习历程一次又一次充满创造性的数学致敬。

来源:https://www.51cto.com/article/842832.html

上一篇： Claude Code 从 Markdown 转向 HTML 的深度解析

下一篇：美国社会为何普遍相信外星人存在