当前位置: 首页
AI资讯
首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应

首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应

热心网友 时间:2026-05-22
转载

大语言模型的生成速度,一直是影响用户体验的关键瓶颈。尤其是在单用户交互场景下,传统的自回归解码方式就像一位字斟句酌的作家,虽然准确,但速度上难免受限。最近,英伟达的一项研究带来了一个颇具碘伏性的思路:为什么非要二选一?他们提出了一个能同时支持三种解码模式的大语言模型系列,仅通过切换注意力模式,就能在速度与精度之间灵活取舍。

这项研究的核心,在于试图统一两大主流生成范式。传统自回归解码的准确性毋庸置疑,但其逐词生成的特性,在低并发场景下无法充分利用GPU的并行计算能力,生成速度容易遇到内存带宽的瓶颈。另一方面,扩散模型天生具备并行生成的优势,能一次性推测多个token,但过去因其在训练时平等对待所有token排列,缺乏语言模型应有的顺序先验,生成质量往往不尽如人意。

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

那么,能否打造一个模型,同时吸收两者的长处?英伟达的答案就是构建一个“三模一体”的架构。这个模型无需额外的草稿模型或复杂的架构改动,仅凭自身就能在三种模式间自由切换,其中最快的模式甚至能将token吞吐量提升高达4倍。

如何实现“三位一体”?

关键在于一种创新的训练与推理设计。在训练阶段,模型同时优化自回归损失和扩散损失,这从根本上提升了扩散语言模型的生成质量。为了稳定这一联合训练过程,研究团队采用了两阶段策略,并引入全局损失平均技术,有效缓解了因随机掩码导致的梯度不稳定问题。

经过这般训练,模型在推理时便获得了三种可随时切换的“形态”:

  • 自回归模式:即传统的逐token生成,保留完整的因果注意力,适用于高并发、计算密集的云端任务。
  • 扩散模式:采用分块去噪策略,利用双流注意力机制在块内并行推测大量token。为了最大化并行效率,团队还专门训练了一个轻量级采样器来替代传统方法。
  • 自推测模式:这是对传统推测解码的革新。它不再需要额外的小模型来起草文本,而是让模型自己扮演“起草者”和“验证者”的双重角色,利用扩散模式并行起草多个token,再用自回归模式进行验证,从而在单模型内实现高效的自我博弈。

性能表现如何?

研究团队发布了3B、8B、14B三个尺寸的基座模型。测试结果显示,新模型在保持与Qwen3-8B基线相当的自回归准确率的同时,在前向传播中平均每次能处理5.9个token。

更重要的是,其效率提升在实际部署中非常显著。以8B模型在单用户场景下的测试为例:

  • 在DGX Spark上,FP8精度下提速3.14倍,INT4精度下提速2.7倍。
  • 在RTX 6000 Pro上,FP8精度下提速3.4倍。
  • 在GB200上,可提速3.3倍;若配合定制CUDA内核,最高可实现4倍加速。

在SPEED-Bench综合基准测试中,其线性自推测机制实现了平均8.7的接受长度,远超其他同类方法。这充分证明了其在数学、代码、推理等多类任务上的高效性。

灵活适配不同场景

这种三模式设计的妙处在于其灵活性。在低至中等并发度(如个人AI助手)下,自推测模式凭借其高效率占据主导。而当面对大批量处理任务(并发流超过64个)时,计算本身成为瓶颈,此时只需将注意力掩码切换回纯自回归模式即可。这意味着,一个模型就能通吃从交互式应用到大规模批量处理的各种部署场景。

技术细节与未来展望

研究也公布了详细的训练配方:从已有的基座模型出发,先进行1万亿token的自回归持续预训练,再进行3000亿token的联合训练,最后进行有监督微调和对齐。关键技术包括全局损失平均、严格因果干净流以防止信息泄漏,以及使用LoRA增强起草器来改进自我推测。

这项研究为大模型架构的演进指出了一个新方向:或许不必纠结于选择自回归还是扩散路径,将二者深度融合在同一套Transformer框架内,才是更优解。论文最后指出了一个更令人兴奋的可能性:如果未来能开发出更完美的扩散采样器,扩散模式的理论性能上限比现有的自推测模式还要再高出76.5%。这暗示着扩散大语言模型仍蕴藏着巨大潜力,长文本“秒级生成”的时代,或许真的不远了。

来源:https://www.jiqizhixin.com/articles/2026-05-22-5

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
五菱缤果Pro威海上市 续航长配置全5.68万起预售火爆

五菱缤果Pro威海上市 续航长配置全5.68万起预售火爆

五菱缤果Pro新能源车正式上市,售价5 68万至7 08万元,提供330公里与403公里两种续航版本。新车采用五门五座布局,空间利用率高,并配备快充技术。车身结构强调安全,高强度钢占比达72%。智能座舱搭载大模型与多互联方式,兼顾舒适与便利性。预售订单已突破5万台。

时间:2026-05-23 07:37
Trae在Python数据分析与机器学习项目中的实际应用评测

Trae在Python数据分析与机器学习项目中的实际应用评测

Trae在Python数据分析与机器学习项目中主要通过四种方式提供支持:利用Auto模式自动生成并执行端到端分析脚本;通过AgentCLI命令行自动化机器学习建模流程;对现有代码进行智能调试与优化;借助语音交互快速构建数据处理函数。这些功能覆盖了从需求描述到代码生成、模型构建及代码优化的全流程。

时间:2026-05-23 07:05
吉利银河星耀7 MAX四驱版上市 售价10.88万起性能解析

吉利银河星耀7 MAX四驱版上市 售价10.88万起性能解析

吉利银河星耀7正式上市,共五款配置,售价10 88万元起。新车定位中型SUV,提供MAX四驱版本,搭载e-AWD智电四驱系统,零百加速5 4秒。设计延续“涟漪美学”,配备发光格栅与贯穿式尾灯。内饰采用环抱式座舱,配备智慧中岛扶手与Eva车载机器人。智能驾驶方面搭载千里浩瀚H3方案,支持高速NOA与自动泊车功能。

时间:2026-05-23 07:05
AI视频教程:如何制作镜头推进效果

AI视频教程:如何制作镜头推进效果

在即梦AI中实现镜头推进效果,可通过慢推模板或手动运镜控制来设置轨道距离与速度。结合运动笔刷可增强局部动态,利用分镜与预设指令库能优化节奏与效率。需注意主体描述明确,参数匹配画面比例。

时间:2026-05-23 06:33
通义万象制作壁纸与头像的图片效果实测

通义万象制作壁纸与头像的图片效果实测

通义万相生成图像时,主体模糊、比例失调等问题多因指令不精准。优化方法包括:严格按“主体-特征-场景-风格-参数”五要素构建清晰提示词,细节越具体效果越可控;生成前根据用途手动设定正确画幅比例,避免拉伸或裁切,确保成品直接可用。

时间:2026-05-23 06:03
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程