美团龙猫注意力机制升级:提速10倍,精准处理1M超长文本
文自 | 凹非寺
量子位 | 公众号 QbitAI
文本处理速度大幅提升超过50%,同时还解锁了多达1M的上下文处理能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
美团龙猫LongCat系列在新年之际再出新招,正式发布了名为LoZA的全新稀疏注意力机制。
这项创新技术集中火力,旨在攻克长文本任务在理解与算力上的核心难题。
相比LongCat系列此前采用的全注意力机制MLA,新的LoZA仅对其一半的核心模块进行了改造。
但模型的长文本处理能力却从256K显著扩展至1M,解码速度也有了显著提升。
其表现甚至优于同类型的Qwen-3模型。
接下来,让我们一起看看它的具体实现方案。
如何实现“只算关键部分”?
全注意力机制的算力瓶颈在于其平方级的计算复杂度,这导致模型处理长文本任务时对硬件要求苛刻,并伴随着推理延迟问题。
LoZA的核心思路是让模型将算力资源聚焦于处理重要的内容,对于次要部分则减少计算开销。
作为LongCat系列的核心技术升级,LoZA主要是在原有的MLA机制基础上进行针对性改造。
具体分为两步走。
首先,对模型中的多头潜在注意力模块进行一次全局“筛查”,找出那些适合被改造的模块。
在原有的MLA架构中,每个模块都是处理注意力的核心单元。新方案为每个模块配备一个可学习的权重α。
α值越高,说明该模块进行全注意力计算越关键,一旦简化就容易丢失性能;α值越低则意味着模块的可替代性强,即便换成更轻量级的计算方式,对整体理解能力的影响也不大。
在训练过程中,团队冻结模型其他参数,只更新α的梯度,通过这种专门的校准训练让模型自主学习α值,然后按α值从小到大排序,找出那些稀疏化后不影响性能的MLA模块,作为后续的优化目标。
随后,将找出的50%低重要性模块替换成更轻巧的流式稀疏注意力SSA。
这样就形成了一种交错结构,团队将这种结构称为ZigZag。
SSA的计算复杂度是线性的,远低于全注意力的平方级复杂度。
所以这种交错结构让模型既不会因为过度简化而变“笨”,又能将计算复杂度降到线性级别,节省大量算力。
为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA还设计了一个大小为1024 Token的稀疏窗口。
每个窗口包含1个负责抓取整体关联的“全局块”和7个负责紧盯附近内容的“局部块”,单块大小为128 Token。
这样的改造也无需从头训练,在中期训练阶段就能完成,成本也比较低。
从测试数据来看,LoZA的表现相当不错,主要是在“更快”的同时“没变笨”。
速度上,处理128K上下文时,解码速度直接比原来快10倍;
处理256K上下文时,模型预加载速度提升了50%,后续解码阶段生成内容时还能节省约30%的算力。这意味着同样的硬件,现在能同时处理两倍多的长文本任务。
这也让LongCat-Flash-Exp解锁了1M的上下文处理窗口。
性能上,LoZA也没有因为简化而“缩水”。
在处理问答、写代码这类日常任务时,和原版LongCat-Flash持平;处理长文本任务时,表现反而更好。
比如在MRCR测试里,超越了同样能处理1M长文本的Qwen-3模型,表现也更稳定。
接下来,团队还计划让LoZA支持动态稀疏比例。
短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。
真是新年新气象!
论文地址已发布。
— 完 —
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
我把 Anthropic 的 Harness 工程思想做成了一个 Skill
用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇
沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责
美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能
小米物流大件“当日达”服务上线 50 城
小米物流大家电“当日达”实现全国50城覆盖,上午11点前下单最快当日送达 对于大家电配送时效长的普遍困扰,小米物流带来了全新的解决方案。最新消息显示,小米旗下大件商品的“当日达”服务范围已成功拓展至全国50座重点城市。除了北京、上海、广州、深圳、杭州、成都等一线与新一线核心城市外,此次升级还囊括了天
为什么现在很多人觉得 OpenClaw 不好用
当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令
WorkBuddy工具
好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

