小米推HySparse稀疏注意力模型，兼顾长文本精度与效率

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

小米推HySparse稀疏注意力模型，兼顾长文本精度与效率

热心网友时间：2026-02-09

转载

2026年2月9日，小米MiMo大模型团队正式发布HySparse混合稀疏注意力架构。该架构专为Agent时代设计，采用“极少量全注意力加稀疏注意力”的协同结构，在保障关键信息捕获能力的同时显著提升

小米发布HySparse混合稀疏注意力架构，兼顾超长文本精度与计算效率

2026年2月9日，小米MiMo大模型团队正式揭晓了专为Agent时代设计的HySparse混合稀疏注意力架构。该架构创新性地采用“极少量全注意力加稀疏注意力”的协同设计，在确保核心信息捕捉能力不打折的前提下，显著提升了计算与存储效率。这为处理超长文本任务提供了一种能够兼顾精度与成本的新范式，也为大模型注意力机制的优化路径带来了系统的参考。

当下，Agent类模型及应用正处于快速演进阶段，对模型处理超长上下文的能力提出了更高要求。这种能力已不仅关乎技术可行性，更直接关系到实际部署时的经济成本与响应实时性。Agent需要在万字乃至更长的上下文中，稳定地完成信息检索、逻辑推理与多步骤任务规划，同时确保响应速度能满足实时交互的需求。整个行业面临的核心挑战，正从“能否完成计算”，转向“是否负担得起计算”。

HySparse正是针对这一现实挑战提出的架构级解决方案。在覆盖通用能力、数学推理、代码生成及中文理解等多维度评测中，该架构在7B稠密模型与80B混合专家模型两种典型规模下，均展现出持续稳定的性能增益。以80B-A3B MoE模型为例，在总计49层网络中仅保留5层全注意力层，模型整体能力未见下降，部分任务表现甚至有所提升；其KV缓存占用降低了近十倍，实现了性能与资源效率的双重优化。进一步的长文本基准测试也证实：即便大幅削减全注意力层数，HySparse仍能可靠维持对远距离关键信息的访问能力，充分彰显了其混合结构的鲁棒性与适应性。

HySparse的发布，标志着大模型注意力设计从单纯追求算力可及性，向兼顾计算效益与部署可行性的关键跃迁。作为MiMo系列注意力技术的延续，它在MiMo-V2-Flash所采用的混合滑动窗口注意力基础上实现了重要演进——通过引入针对全局性、高价值信息的补充机制，使稀疏结构与全注意力形成兼容互补的关系。这一改进在提升模型建模能力的同时，并未增加KV缓存开销，也未带来明显的额外计算负担。

团队表示，后续将持续推进HySparse在更大参数规模模型上的验证工作，深入探索全注意力层数量的压缩极限，进一步释放超长上下文处理的效能潜力。相关成果也将面向学术界与工业界开放，旨在为混合稀疏注意力方向的研究与实践，提供可借鉴的技术路径与实践经验。

来源:https://ai.zol.com.cn/1132/11326379.html

上一篇：宝可梦三十周年巨星云集，超级碗广告引爆全球共忆童年

下一篇：警惕4S店劣质车膜隐患：空气质量超标与视线模糊