数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

翁荔最新万字长文：大模型Scaling Laws需谨慎理解

AI热点日报时间：2026-06-29

热点解读

最近，翁荔（Lilian Weng）时隔一年更新了一篇长文，系统梳理了 Scaling Laws 这条线。从早期机器学习里的学习曲线，到 Kaplan、Chinchilla，再到数据受限场景和现实拟合中的各种坑，一次性说清楚了。这篇文章很值得完整读一遍。它讨论的核心问题，是训练算力、模型规模、数据

最近，翁荔（Lilian Weng）时隔一年更新了一篇长文，系统梳理了 Scaling Laws 这条线。从早期机器学习里的学习曲线，到 Kaplan、Chinchilla，再到数据受限场景和现实拟合中的各种坑，一次性说清楚了。

这篇文章很值得完整读一遍。它讨论的核心问题，是训练算力、模型规模、数据 token、重复数据、拟合外推之间到底如何相互影响，而不是简单停在“模型越大越好”。

正文

缩放定律是深度学习里被讨论得最频繁的经验发现之一。形式上看，它很简单：当我们扩大模型规模、数据集规模和计算量时，训练损失会以可预测的方式下降，沿着一条幂律曲线走——在 log-log 图上，就是一条直线。我们可以把缩放定律视作一个描述计算、损失、模型规模和数据的框架；它的核心问题在于，如何在模型规模和数据之间最优地分配宝贵的计算资源。

这种可预测性让缩放定律在实践中非常有价值。常见的工作流是：先用少量小规模训练运行拟合出缩放定律，然后外推，估计更大模型所需的 token 和计算量。

符号	说明
N	模型规模，用参数量衡量。
D	训练数据集规模，通常用 token 数衡量。
C	训练计算量，单位为 FLOPs。一个常用的近似是 C ≈ 6ND（Kaplan et al. 2020），其中前向传播约占 2ND，反向传播约占 4ND。
L0	不可约损失。
L(N, D)	测试损失 / 测试损失预测函数；也可以指训练损失，因为二者高度相关。
E	泛化误差。

早期：机器学习损失的可预测性

在缩放定律成为主流之前，关于泛化误差随规模变化的可预测性就已经有人研究过了。

Amari et al. (1992) 使用贝叶斯方法和 annealed approximation，推导出四类学习曲线：

确定性学习算法、无噪声数据、唯一解：学习曲线呈幂律衰减，指数由某个常数决定。
确定性学习算法、无噪声数据、多个等价解：每加入一个新数据点，学习会更快，因为模型只需要学习最优参数流形，而不是寻找单一解点。
确定性学习算法、有噪声数据：数据噪声让学习更困难，衰减变慢。
随机学习算法、有噪声数据：存在一个不可约损失，这是随机学习器无法继续降低的残余误差，比如模型在大数据上容量耗尽时。

所有四类学习曲线都遵循幂律形式，其中 L0 可以为 0。虽然它们的理论设定基于简化的二分类任务，但为后续构建经验性的学习曲线预测模型指明了方向。

Hestness et al. (2017) 是早期经验研究中的标杆。他们在四个不同领域（神经机器翻译、图像分类、语言建模和语音识别）都观察到一个重复出现的模式：泛化误差会在一组因素上按幂律缩放，比如数据规模；模型改进会平移误差曲线，但不会影响幂律指数；有意思的是，架构会改变幂律拟合的偏移项，但不会改变指数——幂律斜率看起来更像是问题领域的性质，而不是模型架构的性质；拟合给定数据集规模所需的模型参数量也按幂律缩放。

图 1：左图为 Deep-Speech-2 与 attention speech model 的学习曲线，右图为不同规模 DS2 模型的学习曲线。小模型在训练数据变大后，损失会进入平台期。图源：Hestness et al. 2017。

一张概念图把学习曲线拆成了三个阶段。在小数据区域，学习信号不足，模型表现只比随机猜测略好。中间是“幂律区域”，可以观察到损失、数据和模型规模之间的幂律关系。最后是不可约误差区域，这可以归因于数据噪声等因素。

图 2：幂律学习曲线阶段示意图。图源：Hestness et al. 2017。

Rosenfeld et al. (2020) 又往前推了一步，尝试把误差建模为模型规模 N 和数据规模 D 的联合函数，覆盖了多种架构和优化器。他们在经验上观察到，固定其中一个轴时，误差会沿另一个轴按幂律衰减。这表明存在一个简单参数函数形式的预测模型，只需要在一组较小训练配置上训练，便能预测超过某些阈值后的预期损失。

图 3：数据规模、模型规模和泛化误差在 log-log-log 尺度下的 3D 等高线图。蓝点来自经验实验，曲面是蓝点之间的线性插值。图源：Rosenfeld et al. 2020。

图 4：在小规模配置上拟合参数化误差模型，并外推到更大的模型 / 数据区域。图源：Rosenfeld et al. 2020。

旁注：这些早期工作依赖经典学习理论直觉，比如 VC 维。但在现代深度学习工作中，VC 维往往过于粗糙，经验幂律比理论提供的最坏情况边界更清晰，也更实用。

数据无限区域中的缩放定律

Kaplan et al. 的缩放定律

Kaplan et al. (2020) 在语言建模社区中真正普及了缩放定律。他们发现，交叉熵测试损失会分别随着模型规模、数据集规模和训练计算量按幂律缩放，跨度达到多个数量级。这个发现和早期工作一致，但 Kaplan 等人把概念形式化，并聚焦于 Transformer 语言模型和更大规模的经验实验：模型规模从 768M 到 1.5B 非 embedding 参数，数据集规模从 22M 到 23B token。

关键发现包括：损失会随着 N、D 和 C 分别按幂律缩放，为了获得最优性能，三者必须一起缩放；训练曲线遵循可预测的幂律，其参数大致独立于模型规模；更大的模型样本效率更高；架构细节没有纯粹规模那么重要；训练损失和测试损失正相关——听起来很显然，但这正是预训练工作的基础；在固定计算预算时，训练一个非常大的模型并在收敛前停止，比把一个较小模型训练到完全收敛更高效——这个结论后来被 Chinchilla 推翻了。

他们用一个方程总结了 N 和 D 的联合依赖关系。这个形式的好处是，过拟合程度主要取决于 N 和 D 的比值。它表明，为了避免训练受数据限制，数据需要按模型规模增长的某个特定比例一起增长。

图 5：测试损失随着计算量、数据集规模和参数量呈幂律变化，跨度覆盖多个数量级。图源：Kaplan et al. 2020。

最有影响、事后看来也最有争议的结论，是 compute-optimal allocation。Kaplan 等人发现，当计算量增加 10 倍时，他们建议模型规模扩大约 5.5 倍，而训练 token 只增加约 1.8 倍。后来的 Chinchilla 论文推翻了这一建议，认为这会让大模型严重训练不足。

Kaplan 等人的另一个有用分析，是根据 N 和 D 近似计算所需训练 FLOPs。

图 6：给定不同 Transformer 架构组件的参数和计算估算。图源：Kaplan et al. 2020。

给定一个标准配置，从 N 和每 token 前向计算中排除 embedding 层，反向传播 FLOPs 约是前向传播的两倍，因此总体上每 token 训练 FLOPs 约为 6N，在 D 个 token 上训练的总 FLOPs 约为 6ND。

Chinchilla 缩放定律

Chinchilla 论文（Hoffmann et al. 2022）研究了固定计算预算 C 下，最优模型规模 N 和 token 数 D 之间的关系。它使用了更谨慎的实验设计，得出了一个与 Kaplan 等人不同的答案。

图 7：你应该知道 chinchilla 长什么样。图源：ChatGPT 生成。

核心问题是：给定 FLOPs 有限，我们应该如何在更多数据 token 和更多模型参数之间做选择？Chinchilla 论文给出了三种设计得很整齐的缩放定律拟合方法。经验实验扫描了 400 多个模型，规模从 70M 到超过 16B 参数，训练 token 从 5B 到 500B。实验假设每个训练 token 都是唯一的，即数据无限区域。

方法 1：固定模型规模，改变 token 预算

对每个参数量 N，用不同 token 预算训练多次，记录每个 FLOP 预算下达到的最小损失。

图 8：Chinchilla 方法 1：一组模型规模下，不同 FLOP 预算对应的训练损失曲线。图源：Hoffmann et al. 2022。

方法 2：IsoFLOP profiles

固定一个计算预算 C，绘制最终损失相对于参数量 N 的曲线。每条 iso-FLOP 曲线在 log 空间里大致是一条抛物线，其最低点标记了该计算预算下的最优模型规模。重复这一过程，就能在图中描出一条幂律线。

图 9：Chinchilla 方法 2：IsoFLOP 抛物线。图源：Hoffmann et al. 2022。

方法 3：参数化拟合

直接拟合 Rosenfeld et al. (2020) 中的同一个参数函数，在约束 C ≈ 6ND 下最小化 L(N, D)，可以得到最优 Nopt(C) 的闭式近似。Chinchilla 通过三种互补方法得到答案，最终结果彼此一致——这也是它的结论相当有说服力的一部分原因。

图 10：三种方法都指向一个计算最优前沿，即 Nopt ∝ C^0.5，Dopt ∝ C^0.5，但和 Kaplan et al. 不一致。图源：Hoffmann et al. 2022。

图 11：Chinchilla 三种方法的预测，以及 Kaplan et al. (2020) 的预测。图源：Hoffmann et al. 2022。

Chinchilla 论文中“当时多数大模型训练不足”的主张，由一个著名演示支持：在与 Gopher 相同的计算预算下，他们训练了 Chinchilla（70B 参数、1.4T token 预算）。这个模型比 Gopher 小 4 倍左右，但训练 token 大约多 4 倍，并且在各项评估中全面超过 Gopher。

调和 Kaplan 与 Chinchilla

两篇论文的分歧很明确：Kaplan 等人认为“模型增长快于数据”；Chinchilla 认为，每当模型规模翻倍，训练 token 数也应该翻倍。为什么分歧这么大？

差异 1：Kaplan et al. 主要在小模型上实验。他们在 log-log 空间中外推时，拟合中的一个小差异可能导致预测上的巨大差异。

差异 2：embedding 参数量对小模型很重要。在小参数区域，是否计入 embedding 很重要。Kaplan 等人排除了 embedding，而 Chinchilla 包含了 total embedding。为了连接二者，Pearce & Song (2024) 拟合了总参数和非 embedding 参数之间的关系，结果表明局部幂律指数会随模型规模变化，并收敛到 Chinchilla 的估计。

图 12：局部幂律指数如何随模型规模增长而变化的可视化。图源：Pearce & Song 2024。

为什么是幂律？

幂律在 AI 之外很多领域都被广泛观察到，比如 Zipf 定律、无标度网络、城市缩放定律。规模和频率之间的关系在 log-log 尺度上通常接近一条直线。为什么 LLM 缩放定律也呈现幂律形状？

一个早期解释假设，语言建模可以被看作是在数据低维流形上做回归。更多模型参数可以诱导出对数据流形更细的划分，从而获得更小泛化误差。后来的假设认为，知识或技能是以离散块的方式被学习的，并且这些技能的频率分布遵循幂律。模型先学习常见技能，再学习稀有技能，从而使损失平滑地按幂律下降。

数据受限区域中的缩放定律

经典缩放定律假设无限的唯一数据。随着模型规模增长，我们正在耗尽高质量唯一 token。一些关于 AI 缩放还能持续多久的争论，核心就是是否正在撞上“数据墙”。

Hernandez et al. (2022) 的研究聚焦于一个受控版本：一个大部分唯一、但含少量重复数据的数据集。他们观察到双下降现象：随着重复数据被强调得越来越多，测试损失可能先变差，然后又变好。

图 13：随着重复比例增加，测试损失中间出现双下降现象。图源：Hernandez et al. 2022。

Muennighoff et al. (2023) 研究的是，当模型训练受到数据约束时，计算应该如何最优分配。关键建模调整，是把总 token 数拆成两部分：唯一 token 数和重复次数。他们发现，超额参数的价值衰减速度快于重复数据，因此应该把更多资源分配到更多 epoch，而不是更多模型参数。

图 14：Muennighoff et al. 对数据受限训练的拟合结果。图源：Muennighoff et al. 2023。

最近，Lovelace et al. (2026) 用不同方法重新审视了这个问题。他们不再把过参数化建模为有效模型规模的收益递减，而是显式建模模型规模和数据重复之间的相互作用。在固定模型规模下，更多 epoch 会造成更多伤害，而且更大的模型对重复更敏感。

图 15：固定模型规模下，不同数据重复水平的拟合残差。图源：Lovelace et al. 2026。

现实中拟合缩放定律的棘手之处

尽管缩放定律形式干净，但在实践中，拟合缩放定律可能会对看似琐碎的流程选择出乎意料地敏感。原因在于，我们只能在小模型上拟合，然后外推到大几个数量级的模型上。看起来像舍入误差的选择，可能导致预测中的巨大差异。

Kaplan 和 Chinchilla 之间的分歧，就是展示缩放定律拟合棘手之处的一个绝佳例子。另一个例子来自 Besiroglu et al. (2024)，他们发现 Chinchilla 方法 3 的拟合存在几个具体问题：L-BFGS-B 优化器中的损失尺度过高，导致过早终止；以及参数四舍五入到 2 位精度，让推导出的指数看起来偏差更大。

Toy simulation

下面是一个 toy simulation，用来展示三种具体失败模式：损失精度、损失噪声和拟合区域敏感性。通过交互式图，可以直观感受这些因素如何影响最终拟合结果。

引用

请这样引用本文：

Weng, Lilian. "Scaling Laws, Carefully". Lil'Log (Jun 2026). https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

或者使用 BibTex 引用：

@article{weng2026scaling, title = {Scaling Laws, Carefully}, author = {Weng, Lilian}, journal = {lilianweng.github.io}, year = {2026}, month = {June}, url = "https://lilianweng.github.io/posts/2026-06-24-scaling-laws/" }

参考文献

[1] S. Amari, N. Fujita, and S. Shinomoto. “Four Types of Learning Curves. Neural Computation.” 4(4):605-618, 1992.

[2] Hestness et al. “Deep Learning Scaling is Predictable, Empirically.” arXiv preprint arXiv:1712.00409, 2017.

[3] Rosenfeld et al. “A Constructive Prediction of the Generalization Error Across Scales.” ICLR 2020.

[4] Kaplan et al. “Scaling Laws for Neural Language Models.” arXiv preprint arXiv:2001.08361, 2020.

[5] Hoffmann et al. “Training Compute-Optimal Large Language Models.” NeurIPS 2022.

[6] Pearce and Song. “Reconciling Kaplan and Chinchilla Scaling Laws.” TMLR 2024.

[7] Bahri et al. “Explaining Neural Scaling Laws.” arXiv preprint arXiv:2102.06701, 2021.

[8] Sharma and Kaplan. “A Neural Scaling Law from the Dimension of the Data Manifold.” arXiv preprint arXiv:2004.10802, 2020.

[9] Hernandez et al. “Scaling Laws and Interpretability of Learning from Repeated Data.” arXiv preprint arXiv:2205.10487, 2022.

[10] Muennighoff et al. “Scaling Data-Constrained Language Models.” NeurIPS 2023.

[11] Lovelace et al. “Prescriptive Scaling Laws for Data Constrained Training.” arXiv preprint arXiv:2605.01640, 2026.

[12] Besiroglu et al. “Chinchilla Scaling: A Replication Attempt.” arXiv preprint arXiv:2404.10102, 2024.

[13] Michaud et al. “The Quantization Model of Neural Scaling” NeurIPS 2023.

[14] Brill. “Neural Scaling Laws Rooted in the Data Distribution.” arXiv preprint arXiv:2412.07942, 2024.

[15] Rae et al. “Scaling Language Models: Methods, Analysis & Insights from Training Gopher.” arXiv preprint arXiv:2112.11446, 2021.

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：翁荔最新万字长文：大模型Scaling Laws需谨慎理解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/f547eb02?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

大模型

上一篇：首个以物理为计算原语的大规模生成模型Un-0

下一篇：读博最后一年转方向，意外拿下OpenAI offer

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。