当前位置: 首页
科技数码
俄勒冈大学联合Adobe研究AI问答速度提升近8倍

俄勒冈大学联合Adobe研究AI问答速度提升近8倍

热心网友 时间:2026-05-21
转载


最近,一篇来自美国俄勒冈大学、Google DeepMind与Adobe Research的预印本论文引起了不小的关注。这篇编号为arXiv:2605.12825、发布于2026年5月的研究,提出了一个名为“Orthrus”的新框架。它的核心目标很明确:让大型语言模型在保持原有高智商的同时,把生成文字的速度提升近8倍。

不知道你有没有留意过,当你和ChatGPT这类AI对话时,它的回答总是一个词一个词地往外“蹦”?这背后其实揭示了当前几乎所有顶尖AI系统都面临的一个根本性瓶颈。而Orthrus,正是冲着打破这个瓶颈去的。

一、AI为什么只能一个字一个字地说话

我们可以用一个煮饺子的比喻来理解。想象一下,你必须等锅里的上一个饺子完全熟了,确认没问题,才能放下一个——这就是目前主流AI(技术上称为“自回归模型”)的工作方式。每生成一个词,它都得把前面说过的所有内容重新“回忆”一遍,才能决定下一个词是什么。这种方式保证了极高的准确性,但也注定了它的慢,因为它天生就是串行的,无法并行处理。

从技术原理看,这类模型把一段话的概率分解成一个链条:第一个词的概率,乘以给定第一个词后第二个词的概率,再乘以给定前两个词后第三个词的概率……如此递推。每生成一个新词,模型都需要在内存里读取一遍之前所有词对应的“键值缓存”(可以理解为它的“记忆本”),这就造成了严重的内存带宽瓶颈,导致硬件大量时间花在等待数据传输上,而非实际计算。

那么,有没有能“一锅出”的模型呢?有,那就是“扩散语言模型”。它的工作方式更像蒸包子——把一整段话的所有位置同时放进去处理,速度自然快得多。但这种方式有个致命伤:它在同时预测多个词时,会假设这些词之间相对独立。这就好比厨师同时调几种包子馅,却没考虑口味的前后搭配。这种对上下文关联的弱化,在面对需要严密逻辑的数学或编程问题时,会导致答案质量显著下降。有研究显示,顶尖的扩散语言模型在数学竞赛题上的准确率,比同等规模的自回归模型低了十多个百分点。

于是,AI领域长期陷入一个两难困境:要么慢而准,要么快但有失水准。Orthrus的出现,正是为了打破这个“鱼与熊掌不可兼得”的局面。

二、Orthrus的核心思路:让两个“大脑”共用一个记忆本

Orthrus这个名字取自希腊神话中的双头犬,一个身体,两个脑袋各司其职,非常形象地概括了其架构精髓。

研究团队洞察到一个关键事实:自回归模型真正慢的阶段,是“生成”答案的时候,而不是“理解”问题的时候。理解问题(即“预填充”阶段)其实是可以并行处理的。

基于此,Orthrus采取了一个精妙的策略:将原有的自回归模型完全“冻结”,保持其参数纹丝不动,只让它负责高质量地理解问题并构建“记忆本”(即KV缓存)。然后,在这个冻结的模型旁,额外接入一个轻量级的“扩散头”,专门负责快速、并行地生成答案。最关键的是,这个扩散头可以直接查阅自回归头建立的那个精准“记忆本”。

这个设计的优美之处在于,两个“头”共用同一份记忆,没有任何额外的内存浪费。扩散头直接站在自回归头的肩膀上,利用后者对上下文的高质量理解,来驱动自己的并行生成。

在数学形式上,扩散头的注意力计算可以表示为:它的查询向量同时关注来自自回归路径的键和值,以及来自自身并行块的键和值,两部分拼接后统一计算。由于自回归部分的键值缓存已在预填充阶段算好并直接复用,扩散视图不会引入任何额外的历史缓存内存开销。

三、训练:教会扩散脑袋模仿自回归脑袋的“口味”

光有结构还不够,得训练新加入的扩散头学会正确的并行预测。

训练过程有点像培训速记员。给定一篇文章,随机选取一些“锚点”,以每个锚点为起点,构造一个长度为32个词的“预测块”:保留第一个词(锚点词)作为参照,后面31个词全部用“[MASK]”遮住。然后,让扩散头一次性预测这31个被遮住的词。

这里有一套精心设计的注意力规则来防止“作弊”。训练时,注意力被严格划分为两种视野:自回归路径使用标准的因果遮挡(只能看前面),而扩散路径则遵循特殊规则——对于任意一个扩散查询位置,它只能关注该预测块锚点之前的自回归上下文(防止信息泄露),同时可以与同一个预测块内的其他位置相互关注(实现块内并行推理),但绝不能跨块查看。这套规则通过FlexAttention工具实现,确保了信息流向的正确性。

训练目标非常直接:让扩散头在每个被遮挡位置预测出的词概率分布,尽可能接近冻结的自回归头在该位置的预测分布。这在统计学上称为“前向KL散度蒸馏”——本质上是教扩散头学习自回归头对每个词的“偏好”,而不仅仅是猜最终答案。整个训练过程中,自回归骨干的参数始终保持冻结,梯度只流经新加入的扩散注意力模块。

整个训练过程出奇地轻量:仅需微调整个模型约16%的参数,在不到10亿条训练数据上训练两轮,使用8张H200显卡的单台服务器,不到24小时即可完成。相比之下,一些竞争方法需要500亿甚至5800亿条数据,成本相差数百倍。

四、推理:两个脑袋如何达成共识

训练好的Orthrus在实际工作时,遵循一个精妙的“投票验证”循环。

第一步,扩散头出手。它基于当前已生成的内容,加上32个[MASK]占位符,在一次并行前向计算中,一口气“猜”出未来32个可能的词。

第二步,自回归头验证。将扩散头猜出的这32个词填入序列,让冻结的自回归头用其标准的因果计算,检查每个位置上“按照我的判断,最应该出现的词是什么”。

第三步,从左到右逐一比对,执行“共识机制”。从第一个词开始,如果扩散头的猜测与自回归头的判断完全一致,就接受,然后看第二个;如果第二个也一致,继续接受……直到某个位置出现分歧。此时,停止接受扩散预测,用自回归头在该位置的判断作为“纠正词”,并丢弃这个纠正词之后的所有猜测。然后更新记忆本,开启下一轮循环。

这个机制的美妙之处在于,它在数学上严格保证了:Orthrus最终生成的序列,其概率分布与原始冻结的自回归模型完全一致。当扩散头猜得越准,一轮接受的连续词就越多,速度就越快;即使在最坏情况下,每轮循环也至少能稳定接受1个词(因为纠正词本身就是一个有效词),因此绝对不会比纯自回归更慢。对于带有温度参数的随机采样场景,框架采用严格的拒绝采样方法来对齐分布,同样保证无损。

五、实验结果:数字背后的真实表现

研究团队将Orthrus搭载在业界领先的Qwen3模型家族上,测试了1.7B、4B和8B三种规模,并在数学推理、代码生成等多个高难度基准上进行了全面评测。

衡量效率的核心指标是“每次前向传播的有效词数”(TPF)。纯自回归模型的TPF上限是1(每次只能确认1个词),而Orthrus的理论下限是0.5(两次传播确认1个词,即最差情况)。

实测结果令人印象深刻。在8B规模模型上,Orthrus在各类任务上的平均TPF达到5.39,这意味着平均每两次传播(一次扩散预测加一次自回归验证)就能确认约10.78个词,相当于纯自回归基线速度的5.36倍。在伪代码转真实代码这类结构规律性强的任务上,加速比甚至达到了7.83倍(即论文标题中“近8倍”的来源)。在数学竞赛题上,加速比为6.81倍。即使在最具挑战性的编程竞赛基准上,加速比也达到了6.68倍。

在准确率方面,Orthrus-Qwen3-8B在多个基准上的表现,例如GSM8K(96.0%)、MATH-500(86.2%)、HumanEval(95.1%),与Qwen3-8B原始自回归模型的表现完全一致——这得益于其共识机制的数学保证。

相比之下,同样基于Qwen3架构的竞争对手SDAR-Qwen3-8B,在MATH-500上只有78.6%,差距显著。另一个知名的Fast-dLLM-v2在MATH-500上只有61.5%,比自回归基线低了超过11个百分点。这印证了研究团队的核心观点:改造原有模型的权重,会不可避免地破坏其推理能力。

研究团队还将Orthrus与另一类加速方法“推测解码”进行了比较。推测解码的思路是用一个小模型先快速猜几个词,再让大模型一次性验证。虽然思路相似,但关键区别在于推测解码需要维护两套独立的“记忆本”,内存开销更大。对比结果显示,在MATH-500上,Orthrus的平均连续接受词数达到11.7,而两个前沿的推测解码系统分别为7.9和3.5。Orthrus的优势在于:扩散头和自回归头共享同一个表示空间,两者对语言的“理解”高度一致,因此预测得更准。

六、消融实验:每个设计细节都有它的道理

为了验证各个设计决策的合理性,研究团队进行了一系列对照实验。

关于并行预测块大小K:测试了K=4, 8, 16, 32四种设置。由于扩散头是整个块同时计算,增大K并不会增加单次前向传播的延迟。而TPF随着K增大单调上升:从K=4时的1.85,增长到K=32时的6.35。这意味着在延迟几乎不变的情况下,吞吐量提升了3.6倍。因此,K=32被选为默认配置。

关于训练目标的选择:比较了“软标签”(KL散度蒸馏,学习完整概率分布)和“硬标签”(标准交叉熵,直接预测正确答案)。两者最终准确率完全相同(都是86.2%),但推理速度有差异:软标签训练的TPF为6.35,硬标签的只有5.86。原因是硬标签训练会让扩散头过度拟合数据表面形式,而非真正模仿自回归头的“思维习惯”,导致推理时被否决的词更多,加速比下降。

关于是否需要多步迭代:测试了借鉴Fast-dLLM-v2的两步预测策略。结果表明,两步策略的TPF仅为3.53,远低于Orthrus单步策略的6.35。额外的推理步骤抵消了并行化带来的增益,证实单步预测是最优选择。

七、内存效率:几乎没有额外负担

除了速度,Orthrus在内存方面的表现同样出色。系统测量显示,在不同序列长度下,Orthrus相比Qwen3-8B基线的峰值GPU显存额外开销极小,不到100MiB,相对于基线18-20GiB的占用,增幅不到1%。

在KV缓存方面,由于两个视图共用同一份历史缓存,唯一的额外开销来自扩散块(32个并行位置)的临时状态,这是一个固定的常数(约4.5MiB),与序列长度无关。这在技术上被称为“O(1)缓存开销”——意味着即使处理非常长的对话,也不会因为使用Orthrus而产生额外的内存压力。

相比之下,传统推测解码方法需要为草稿模型单独维护一套完整的KV缓存,其额外开销会随着序列长度线性增长。

当然,Orthrus也有其局限性。由于自回归骨干被完全冻结,其生成能力上限就是基础模型的上限,无法超越。这意味着它本质上是一个推理加速框架,而非能力增强框架。基础模型存在的任何偏见、知识盲区或幻觉倾向,都会被原样继承。

总而言之,Orthrus在AI推理加速领域做了一件相当难得的事:在数学上严格证明并在实验上全面验证了“速度可以大幅提升,而准确率完全不降”。近8倍的速度提升,配合几乎为零的额外内存开销,以及仅需不到24小时就能完成的轻量训练,让这套方案具备了很强的实际部署价值。对于需要大规模运行AI服务的机构而言,同样的硬件资源可以服务近8倍数量的用户请求,这背后的经济价值不言而喻。

感兴趣的读者可以通过论文编号arXiv:2605.12825查阅完整内容,其代码已在GitHub上开源。

Q&A

Q1:Orthrus是如何保证生成结果和原始自回归模型完全一致的?

A:Orthrus通过其“共识机制”来保证。扩散头先并行猜测多个词,然后自回归头从左到右逐一验证,只接受与自回归判断完全一致的词,遇到分歧则停止并用自回归模型的判断纠正。这个过程在数学上等价于对自回归分布进行精确采样,因此输出分布与原模型严格一致。

Q2:Orthrus训练需要多少资源,普通机构能负担得起吗?

A:Orthrus的训练成本相当低。仅需微调约16%的模型参数,使用不到10亿条数据,在8张H200显卡的单台服务器上不到24小时即可完成。相比需要数百倍数据量的同类竞争方案,Orthrus的训练成本对大多数具备基本GPU资源的机构而言是可接受的。

Q3:Orthrus和推测解码有什么本质区别?

A:两者都采用“先猜后验”的思路加速生成,但核心区别在于架构集成方式。推测解码需要一个独立的草稿模型,并维护两套分离的KV缓存,内存开销随序列长度线性增长。Orthrus则将扩散头直接集成在原模型内部,两个视图共用同一套KV缓存,额外内存开销是固定的常数(约4.5MiB),不随序列长度变化,在生成长文本时内存优势尤为明显。

来源:https://www.163.com/dy/article/KTCVS8KC0511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
三星稳居拉美手机市场首位 2026年Q1出货量达3480万部

三星稳居拉美手机市场首位 2026年Q1出货量达3480万部

2026年第一季度拉丁美洲智能手机出货量达3480万部,同比增长3%。三星以1290万部出货量及37%市场份额保持领先。小米、摩托罗拉分列二、三位,荣耀与苹果增速显著。同期东南亚市场出货量则下降9%。

时间:2026-05-21 11:14
光能应用如何改变我们的生活与未来

光能应用如何改变我们的生活与未来

光,大概是宇宙中最神秘,却也最寻常的存在了。它自创世之初便穿行于星际,无声地见证着地球生命的漫长演化。 科学的脚步,则一步步揭开了它的面纱。几何光学描绘了它如何传播与成像,电磁理论则宣告:光,其实就是一种电磁波。而到了量子物理的时代,光的波粒二象性被揭示,其本质变得更为深邃迷人。 可以说,光不仅是自

时间:2026-05-21 11:14
200Hz电竞显示器普及高刷新率时代正式来临

200Hz电竞显示器普及高刷新率时代正式来临

洛图科技最新市场报告揭示,国内电竞显示器市场已全面迈入高刷新率时代。数据显示,刷新率达到200Hz及以上的机型,销量占比已突破63%大关。这一数据直观反映了玩家对游戏流畅体验需求的显著升级。 曾几何时,144Hz或165Hz刷新率被视为电竞显示器的“甜点”配置。然而,随着3A大作画面日益复杂,电竞对

时间:2026-05-21 11:14
联想AI主机新品发布 边缘算力普惠化推动AI应用普及

联想AI主机新品发布 边缘算力普惠化推动AI应用普及

联想发布天禧AI4 0技术,实现从“+AI”到“AI+”的跃迁,推出联想AI主机新品类及“苍穹计划”。天禧AI4 0具备主动任务处理与安全体系,通过“端-边-云”协同降低使用成本。AI主机作为边缘算力终端,支持本地大模型推理,旨在推进“词元普惠”。“苍穹计划”提供算力与资金激励,以繁荣天禧AI生态。

时间:2026-05-21 11:14
地外文明探索意义揭秘,对话张同杰教授解读科研前沿

地外文明探索意义揭秘,对话张同杰教授解读科研前沿

地外文明探索是持续数十年的严谨科学探索,虽未发现外星生命,但推动了射电天文等技术发展,并引发人类对宇宙地位的哲学思考。北京师范大学张同杰教授将与中国科学技术大学袁岚峰副主任在节目中深入探讨该领域前沿议题。

时间:2026-05-21 11:13
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程