面包屑图标 当前位置: 首页
AI资讯
热点详情

Scaling Law的真相,藏在那些“没用”的参数里

AI热点日报
AI热点日报时间:2026-06-29
热点解读

大语言模型的参数冗余并非浪费,在训练中为长尾知识提供隔离空间,并作为注意力下沉的数值泄压口;在推理时则构成多步推理的跨层骨架。这些看似“闲置”的参数实则支撑了模型的关键能力。

大语言模型中的参数冗余并非浪费,而是在训练、推理、后训练等生命周期中扮演着四种截然不同的关键角色。本文将从“参数冗余谜题”出发,层层拆解这些看似“吃空饷”的参数背后的真实作用。

那条光滑的幂律曲线背后,从来没有什么免费的冗余。

为什么会有“参数冗余”的错觉?

自从 Jared Kaplan 等人在 2020 年画出那条幂律曲线,Scaling Law 就成了大模型时代最重要的经验法则。参数越大,模型越强,成了定理。

但在 2024 年,百川智能发表了一篇名为 ShortGPT 的论文。他们直接把 LLaMA-2-13B 的 40 层 Transformer 砍掉了 10 层。结果模型在 MMLU 上的得分却仅仅从 55.0 跌落到了 52.2。

ShortGPT 删层实验,逐层移除后 PPL(左)与 MMLU(右)几乎不变,深层尤其稳(图源 Men et al. 2024, Fig.1)

四分之一的层没了,核心知识基准却几乎毫发无损。

随后,牛津大学在 2025 年发表的研究《大语言模型中的深度诅咒》(The Curse of Depth in Large Language Models)又重现了这个现象。他们发现,大模型深层网络里相邻层的输出几乎是完全同质化的,把这些层直接抽走,性能不仅没崩,甚至有时还会微微反弹。

这似乎说明,大模型里有大量的层都在「吃空饷」。

如果这些参数都在空转,Scaling Law 就变得很可疑了。我们是否真的有必要要这么多的参数?它们真的在给模型带来好处吗?

这就是 Scaling Law 的一个重要谜题,即参数冗余谜题。

过去两年,最顶尖的 AI 研究者们开始了一场向微观下潜的战役。试图从各个角度去破解这一谜题。在这一过程中,也将 Scaling Law 从「经验公式」升级为「物理定律」。

两年之后,这些孜孜不倦互相印证的研究,终于构成了一张网络,来部分解释了这些冗余参数的机理和作用。

如果把模型的一生拆开,将训练、推理、后训练(微调)这三段账分开来算,你会发现,这些被统称为「冗余」的参数,其实在不同阶段扮演着四种截然不同的角色。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Scaling Law的真相,藏在那些“没用”的参数里要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.bestblogs.dev/article/23d850ea?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
其他

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读