腾讯混元推Stem稀疏注意力算法 首字延迟降低3.6倍
腾讯混元提出Stem稀疏注意力算法,被ICML-2026收录。该算法通过Token位置衰减和输出感知度量,仅用25%计算预算保持近无损精度,配合开源Stem+BSA算子,在128K上下文下将首字延迟降低3 7倍。
先说一个值得关注的消息:腾讯混元近期提出了一种名为Stem的稀疏注意力算法,该成果已被顶级学术会议ICML-26(即2026年那届)正式接收。这项工作的核心,是通过一套“算法+算子”全栈优化方案,有效降低大模型推理的首字延迟——官方数据显示:在128K上下文长度下,首字延迟降低了3.7倍。
从算法层面拆解,Stem主要做了两件关键的事。一是Token位置衰减(TPD),简单来说就是让距离当前位置较远的Token对注意力计算的影响逐渐减弱,有点类似“距离产生美”但更侧重于“距离带来计算节省”。二是输出感知度量(OAM),它可以动态评估哪些注意力计算对最终输出更有价值,从而优先保留那些“高贡献”的注意力路径。这两项机制相结合,使得模型在仅使用25%计算预算的情况下,依然能保持接近无损的精度——这并非勉强可用的水平,而是真正能投入生产环境的“节能模式”。
算法再出色,落地才有实际意义。因此另一个亮点隐藏在算子层:HPC开源的Stem+BSA算子,将稀疏注意力在理论上的收益,切实转化为硬件加速效果。换句话说,关键不是理论上节省了多少计算,而是显卡上实际运行后快了多少。从最终结果来看,这种协同优化确实奏效——3.7倍的首字延迟降低,就是最直接的印证。
对于需要处理超长上下文(例如128K)的实际应用场景来说,这一提升意味着对话响应更快、文档分析更流畅。当然,算法的通用性以及在不同硬件上的适配效果还有待更多验证,但至少大方向是正确的。

你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:腾讯混元推Stem稀疏注意力算法 首字延迟降低3.6倍要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点京东近日发布了国内首个专门为智能体自主支付设计的协议——A2P2协议。该协议将AI支付自主化程度系统性地划分为L0至L5六个等级,重点聚焦L3和L4级别,让智能体能在用户设定的规则边界内自主完成支付。为确保安全,协议首创了ARI机制,在支付时实时核验用户、智能体身份及运行环境,并采用资金账户隔离设计
VGN推出新款霓虹75Air磁轴键盘,单模有线版售价259元,三模无线版售价339元。该键盘采用75%配列,搭载天霸Air轴,主打电竞级性能,支持8kHz回报率、128kHz扫描率以及0 1ms低延迟,并具备0 005mm精度的RapidTrigger快速触发功能。外观上配备雾透键帽与霓虹灯带,
爱国者御风F90机箱上市,采用十字散热风道与MESH网孔面板,最多可装10个风扇,支持顶部和前部360水冷。兼容ATX主板,CPU散热器限高170mm,显卡限长395mm,提供2个3 5英寸和2个2 5英寸硬盘位,有黑、白两色可选。
北京越野BJ81“战术方盒子”硬派SUV的申报信息于近日公布。新车采用标志性方盒子造型,提供6座布局,车身尺寸为4850×2050×1975mm,轴距2810mm。本次申报新增了运动版BJ81VJ,升级22英寸轮圈、305 45宽胎等运动套件。动力方面搭载1 5T增程系统,电池来自宁德时代。新车预售
- 日榜
- 周榜
- 月榜
热点快看
