纽约大学研究：大模型宽度扩展存低效陷阱，优化设计成新方向

首页

热心网友

转载

2025-10-28

人工智能模型真的在高效运转吗？当我们使用ChatGPT等大语言模型时，很少有人意识到这些看似强大的系统内部可能存在着大量“无效劳动”。纽约大学研究团队最新发表的论文指出，大语言模型中的关键组件——前馈网络，在扩展宽度时存在严重的资源浪费现象，这一发现为优化模型设计提供了全新视角。

前馈网络作为大语言模型的核心处理单元，承担着67%的参数运算任务，堪称模型的“智慧中枢”。传统观点认为，增加网络宽度能提升模型性能，就像扩大工厂生产线能提高产量。然而研究团队发现，这种扩展方式类似在厨房增加炉灶，但新增设备大多闲置，真正发挥作用的仍是少数核心炉灶。

研究团队开发了四项创新分析工具，包括硬谱熵、软谱熵、谱集中度和谱利用指数。这些工具如同“显微镜”，能精准检测网络中真正工作的维度数量。硬谱熵衡量核心处理维度的数量，软谱熵评估所有维度的贡献分布，谱集中度反映信息处理能力的集中程度，谱利用指数则综合评价网络效率。

实验数据显示，当网络宽度从1倍扩展到8倍时，软谱熵呈线性增长，但硬谱熵增长缓慢且不稳定。这种“不对称增长”现象表明，新增容量主要被分配给处理次要信息的维度，而核心处理维度没有相应增加。研究团队在70M到250M参数规模的模型中均观察到这一模式，证明这是神经网络的普遍特性。

进一步分析发现，这种资源浪费源于“尾部优先增长”机制。网络在扩展时优先利用低能量维度处理细节信息，而非扩展高能量子空间处理核心信息。这种模式在训练初期就已形成，并在5000个训练步骤后固化。研究团队在LLaMA、GPT-2和nGPT等不同架构中均验证了这一现象。

研究还揭示了层归一化策略对网络效率的关键影响。传统Pre-LN（预层归一化）方式导致典型的不对称增长，而Post-LN（后层归一化）能抑制尾部容量过度增长，但可能引发训练不稳定问题。混合层归一化（Mix-LN）策略结合了两者的优点，既能保持尾部容量线性增长，又能改善核心容量利用效率。

针对训练稳定性问题，研究团队发现权重归一化和超球面归一化技术能有效防止“谱崩塌”。在250M参数的LLaMA模型中，应用权重归一化后，硬谱熵稳定在0.01-0.1范围内，谱集中度降低至0.25-0.3，模型困惑度从1427显著降至25.1，性能超越基准配置。

不同模型架构的对比显示，nGPT架构通过引入超球面权重和激活归一化，实现了更好的谱利用效果。其硬谱熵维持在比GPT-2高两个数量级的水平，谱集中度降至约0.4，困惑度降至13.60，明显优于传统GPT-2的14.07。这表明新增容量在nGPT中实现了更均衡的分配。

基于这些发现，研究团队提出了实用设计原则：前馈网络宽度存在2.67-4倍的“甜蜜点”，超出后边际效益急剧下降；通过监控有效维度变化可优化宽度扩展；不同层级应采用差异化宽度分配；权重归一化是防止训练失败的关键技术。这些原则为模型设计者提供了量化参考。

这项研究对AI行业发展具有深远影响。在当前计算资源日益昂贵的背景下，提高参数效率成为关键。通过应用谱利用原理，可在不增加计算成本的情况下提升模型性能，或保持性能的同时减少资源消耗。研究还推动了AI模型设计哲学的转变，从“规模优先”转向“效率优先”。

对于普通用户而言，这项研究意味着未来将能使用更高效、响应更快的AI服务。研究团队开发的谱利用分析工具可能成为模型设计的标准评估方法，推动新一代高效AI模型的发展。同时，这些发现也为AI硬件与软件的协同优化提供了理论依据，有助于降低AI技术的使用门槛。

Q&A
Q1：前馈网络在大语言模型中的具体作用是什么？
A：前馈网络是大语言模型的核心处理单元，负责深度加工输入的文字信息，承担67%的参数运算任务，其效率直接影响模型的整体性能。

Q2：“不对称谱缩放任律”反映了什么问题？
A：该定律表明，网络宽度增加时，处理细节信息的维度呈线性增长，但处理核心信息的维度增长缓慢，说明新增容量主要被浪费在次要维度上。

Q3：这项研究对AI模型设计有何具体指导意义？
A：研究提出了量化设计原则，包括确定最佳宽度扩展范围、通过监控有效维度优化扩展策略、采用差异化的层级宽度分配，以及应用权重归一化技术防止训练失败。

来源:https://www.itbear.com.cn/html/2025-10/1000568.html

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。