Hermes团队预训练优化：算力成本降低60%，DeepSeek后效率提升新方案

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

Hermes团队预训练优化：算力成本降低60%，DeepSeek后效率提升新方案

热心网友时间：2026-05-16

转载

提升模型能力是持续的目标，但无节制地增加训练成本已难以为继——这已成为AI领域最广泛的共识之一。

无论是模型开发者还是企业，关注的重点已从单纯的“模型性能比拼”转向更实际的问题：“在相同的GPU资源与训练周期内，能否进行更多有效实验，处理更多高质量数据，最终获得更低的损失值与更优的下游任务表现？”

因Hermes Agent（在GitHub上星标数超14万）而备受瞩目的Nous Research团队，近期提出了一种名为“Token Superposition Training”（TST，词元叠加训练）的创新方法。该方法目标清晰：有望将大语言模型的预训练成本降低一个数量级。

相关研究论文《Efficient Pre-Training with Token Superposition》已在arXiv发布，其中关于百亿参数MoE模型的实验结果尤其令人印象深刻。

基线模型训练了1.05万亿个词元，消耗了12311个B200 GPU小时。
采用TST方法的模型，训练了2万亿个词元，仅消耗了4768个B200 GPU小时，约为基线模型的38.7%。
与此同时，最终损失值从2.252降至2.236，在HellaSwag、ARC-E、ARC-C、MMLU等零样本评测基准上，性能也获得了同步提升。

这意味着什么？TST方法仅使用了约四成的GPU时间，不仅达成了更低的损失值，还取得了更好的下游任务性能。换算下来，在达到相同最终损失值的前提下，预训练时间被压缩至原来的40%左右，效率提升约2.5倍。

如果说，此前在OpenRouter排行榜上超越Claude 3.5 Sonnet的Hermes Agent，展现了Nous Research团队在模型调优与智能体（Agent）技术上的深厚功底；那么此次提出的TST方法，则将焦点从“如何应用模型”拉回到了能力构建的源头，直指预训练过程本身的效率优化。

业界常将Nous Research与DeepSeek进行比较，不仅因为两者都长期致力于开源，更因为它们在降低训练成本的技术路径上选择了不同的方向。

DeepSeek代表的是系统级重构路线，无论是MoE架构、MLA注意力机制，还是各类稀疏化与并行优化技术，其核心都是通过底层工程创新来极致压榨算力效率。这种提升往往伴随着较高的工程复杂度。

而Nous Research的TST，则选择了重塑模型在预训练早期的学习路径。它不改变模型架构本身，而是从模型学习词元的方式入手，切入点更为轻巧，理论上也更容易集成到现有的训练流程中。

TST方法解析：先“粗读”把握全局，再“精读”完善细节

要理解TST，需从预训练最基础的任务——下一个词元预测说起。

在标准训练中，模型根据已见的词元序列预测紧随其后的下一个词元。这一机制简洁而强大，过去几年绝大多数主流大语言模型都基于此范式构建。

但TST提出了一个根本性质疑：在预训练的初始阶段，模型真的有必要逐词元地进行“精读”吗？

Nous Research的答案是否定的。他们将预训练过程拆解为两个阶段。

第一阶段称为“叠加阶段”。在训练前期，模型不再逐个处理词元，而是将连续多个词元打包成一个“袋”。例如，当袋大小为8时，便将连续的8个词元视为一组。

在输入侧，模型会将这一组词元的向量表示进行平均，压缩成一个单一的“叠加词元”。在输出侧，模型的预测目标也随之改变：不再是预测下一个具体词元，而是预测接下来这一组词元中可能出现的词元集合（一个多标签分类问题）。

第二阶段则是“恢复阶段”。当训练进行到一定比例（例如总步数的20%-40%）后，TST机制被移除，模型切换回标准的“下一个词元预测”训练。也就是说，训练的后半程完全按照传统大语言模型的方式进行，目的是将前期“粗粒度学习”获得的语义表示，精细化为具备流畅生成能力的自回归模型。

论文将TST描述为一种“即插即用”的预训练方法，其关键就在于此：它无需修改并行策略、优化器、分词器、训练数据或最终的模型架构。真正改变的，仅是训练早期输入数据的粒度以及监督学习的目标。

这也使其与许多训练效率提升方案区别开来：TST只改变训练过程，不改变最终的推理模型。许多涉及训练端优化的方法，往往会牵连推理部署。例如，更换分词器会影响整个生态的兼容性；修改模型结构则需要重新适配部署链路。而TST巧妙地将复杂度留在了训练阶段，最终交付的仍然是一个标准的、可直接部署使用的自回归语言模型。

当然，全程使用TST训练是不可行的。论文明确指出，如果模型自始至终都使用TST，它会输出多个未来词元的混合概率，导致生成结果混乱。因此，后期切换回标准自回归训练是必不可少的步骤。

这也就解释了，为什么TST更适合被理解为一种“阶段化的训练策略”，而非对“下一个词元预测”范式的彻底替代。

简而言之，TST所做的事情，类似于让模型在预训练早期先进行“粗读”：快速掌握局部语义、词汇共现和粗粒度的概率分布。待模型建立起基础的语言表示之后，再切换至“精读”模式，通过标准的逐词元训练来完善精确的文本生成能力。

TST为何能节省GPU资源？关键在于每一步处理更多文本

TST带来的提速效果有其内在逻辑，核心是一种资源上的权衡：以更粗糙的词元表示为代价，换取更高的数据吞吐量。

这里的数据吞吐量，对应论文中的“单位浮点运算所能处理的原始文本量”。通俗地说，并非GPU算力突然增强，而是在进行同样一次前向计算时，模型能“消化”的文本内容变多了。

在标准训练中，模型序列的每个位置处理一个词元。假设序列长度为L，Transformer就需要处理L个向量表示。

但在TST的叠加阶段，连续的s个词元被合并为一个叠加词元。此时，模型内部需要处理的序列长度缩短了，但每个位置所承载的原始文本信息量却变成了原来的s倍。因为模型是在更粗粒度的表示上进行计算，所以在消耗相同计算资源的前提下，它可以处理s倍数量的原始数据词元。

传统的预训练好比逐字精读，而TST的早期训练则像是先快速浏览以抓住段落主旨和关键词。这种“粗读”当然有其代价——它会丢失“袋”内词元的顺序信息，因此不能全程使用。但在模型刚刚接触语言统计规律的初期，这种低分辨率的输入反而足够高效。

论文将此定义为一种“由粗到细”的策略：先让模型在简单、高吞吐的设置下学习粗粒度的统计结构，再恢复全分辨率的语言建模精度。

这与当前主流的其他效率提升路线形成了鲜明对比：MoE是让每个词元只激活部分参数；稀疏注意力是让每个词元只关注部分位置；多词元预测是让每个位置同时预测多个未来词元；而TST，则是让模型在训练早期换一种粒度来学习词元。

它并非直接缩小模型体积或加速推理，而是让预训练早期的每一步计算都变得更具“性价比”。

这一点对模型开发者至关重要。预训练从来不是一蹴而就，而是一个不断试错、调整数据配方和超参数的过程。早期训练越快进入有效区间，就意味着关于数据混合策略、超参数设置等关键实验能越早得到验证。

本质上，TST节省的不仅是一次成功训练所消耗的GPU小时，更是整个研发周期中宝贵的试错成本与时间。

百亿参数模型获益最大

论文的实验验证并未局限于小模型，而是在270M、600M、3B的稠密模型，以及一个总参数量约100亿、每词元激活参数量约10亿的MoE模型上进行了全面测试。这个百亿级MoE模型，正是开篇提到的、收益最为显著的案例。

实验数据表明，TST方法处理了更多的数据词元，但却以更少的GPU时间达到了更优的结果。在达到相同损失值的条件下，TST实现了约2.5倍的训练效率提升。

这个数字足以让任何进行大规模预训练的团队感到兴奋。因为在模型研发中，成本最高的往往不是那一次最终成功的训练，而是成功之前所有的探索和试错。单次实验就能节省一半以上的GPU时间，意味着在同等预算下，可以尝试更多组数据配方、调试更多轮超参数、验证更多模型尺寸的可行性。

论文还进行了多组超参数扫描实验，观察不同“袋”大小和叠加阶段训练步数比例的影响。结论是，在合理范围内，TST对超参数的选择相对稳健：袋大小在4到8之间，叠加训练步数比例在0.2到0.4时，通常能取得较好的效果。

此外，TST的收益并非单一机制所致。论文通过消融实验发现，单独使用输入侧的“叠加”或输出侧的“多标签预测”，都能优于基线，但两者结合（即完整的TST）效果最佳。这表明，TST是两个机制的协同作用：输入侧改变了信息粒度，降低了单位信息的计算成本；输出侧改变了预测目标，提供了更密集的监督信号。

这套机制的启发在于，输入侧在训练早期赋予了模型一个低分辨率视野，让它以更低成本接触更多文本；输出侧则像是将监督问题从“下一个词是什么”改成了“接下来这一小段大概会包含哪些词”。前者提高了数据吞吐效率，后者提升了学习效率。

这也正是TST与单纯的多词元预测技术在本质上的不同。后者是在同一位置额外预测多个未来词元；而TST则是同时改变了输入和输出的粒度。一个是增加了监督任务的数量，另一个是改变了学习任务的分辨率。

训练降本新思路：聚焦学习路径优化

TST最值得深思之处，不在于其设计了多么复杂的架构，而在于它揭示了一个趋势：训练降本增效，未必总要针对模型结构进行大刀阔斧的改动。

过去一提到降低成本，行业本能反应往往是增加算力、修改架构、优化并行、进行知识蒸馏。这些都是系统级的“重体力活”，没有雄厚工程实力的团队很难承接。但TST提供了一个轻量得多的切入点：仅调整预训练早期的学习路径和训练目标。

这意味着什么？对于广大开发者而言，在同样规模的GPU预算下，可以进行更多轮的实验；对于专注于1B到10B参数规模的垂直领域模型团队来说，试错成本有望显著下降。这比盲目追逐前沿的千亿参数模型，要务实和可行得多。

当然，TST也并非免费的午餐。它本质上是“用数据吞吐量置换GPU计算时间”。对于算力紧张但拥有高质量数据集的团队，这无疑是一剂良方。反之，如果团队连足够的高质量数据都难以获取，那么TST不仅帮不上忙，甚至可能因为需要消耗更多数据而放大数据短板。

但这并不影响其方向性的价值。TST将一个被默认太久的问题重新摆上了台面：模型学习语言的顺序和方式，其本身就可能成为一个重要的效率杠杆。

当模型训练成本日益高昂，真正有价值的创新可能不只是如何把模型做得更大，而是如何让模型“更高效地学习”。更准确地说，是如何优化训练过程，让其中的每一步计算，都产生更高的价值。

参考文献：

论文：http://arxiv.org/abs/2605.06546

来源:https://36kr.com/p/3810440762547716

上一篇：政府招标信息自动采集方法与工具推荐

下一篇： RPA自动化工具选型指南与实战应用解析

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

我的世界基岩版难度调整指令difficulty使用教程

红色沙漠延长飞行距离技巧与实用方法详解

三角洲行动电脑配置要求与最低配置推荐指南

王者荣耀世界零氪开荒阵容搭配攻略

Poki官方网页版免费小游戏大全在线即玩入口

云鸣潮网页版免费在线玩官方正版直接进入

红色沙漠勇武之步套装获取方法全攻略

三角洲行动陷阱拆除与战术道具使用全攻略

深海迷航手游控制台开启方法详细教程

三国志幻想大陆刘备命魂觉醒攻略与技能解析

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

鸣潮赛博朋克联动角色全名单与获取指南

阴阳师5月8日补偿公告内容与领取方法详解

刺客信条影下载安装教程与新手入门指南

崩坏星穹铁道4.2下半卡池抽取指南与角色分析

牧场物语风之集市快速赚钱攻略与技巧分享

崩坏星穹铁道绯樱全面培养指南光锥遗器阵容搭配详解

艾尔登法环黑夜君临蓝量提升方法详解

王者荣耀世界英雄强度排行榜最新榜单

帕帕拉猩红辣妹强度解析吉星派对角色实战评测

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

Hermes团队预训练优化：算力成本降低60%，DeepSeek后效率提升新方案

TST方法解析：先“粗读”把握全局，再“精读”完善细节

TST为何能节省GPU资源？关键在于每一步处理更多文本

百亿参数模型获益最大

训练降本新思路：聚焦学习路径优化

雷克萨斯全新纯电SUV TZ发布三排座椅四驱双电机配置详解

京东方全球首发24.5英寸1000Hz超高刷电竞显示器

问界M8插混保值率第一一年残值高达85.3%

大卫爱登堡百岁诞辰回顾自然纪录片之父传奇作品

上汽MG 07莫雷洛紫官图发布轿跑设计预计售价15至20万

Hermes团队预训练优化：算力成本降低60%，DeepSeek后效率提升新方案

TST方法解析：先“粗读”把握全局，再“精读”完善细节

TST为何能节省GPU资源？关键在于每一步处理更多文本

百亿参数模型获益最大

训练降本新思路：聚焦学习路径优化

雷克萨斯全新纯电SUV TZ发布 三排座椅四驱双电机配置详解

京东方全球首发24.5英寸1000Hz超高刷电竞显示器

问界M8插混保值率第一 一年残值高达85.3%

大卫爱登堡百岁诞辰 回顾自然纪录片之父传奇作品

上汽MG 07莫雷洛紫官图发布 轿跑设计预计售价15至20万

雷克萨斯全新纯电SUV TZ发布三排座椅四驱双电机配置详解

问界M8插混保值率第一一年残值高达85.3%

大卫爱登堡百岁诞辰回顾自然纪录片之父传奇作品

上汽MG 07莫雷洛紫官图发布轿跑设计预计售价15至20万