数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Kimi发布MoBA突破性实现无限上下文

AI热点日报时间：2026-06-30

热点解读

Kimi推出的MoBA（Mixture of Block Attention）技术，在大语言模型上下文处理能力方面实现了重大突破——几乎达成无限上下文。其核心在于将专家混合（MoE）与稀疏注意力巧妙融合。简单来说，MoBA将RAG AI Agent从上下文长度限制中彻底解放，使其能够高效处理整个代码

Kimi推出的MoBA（Mixture of Block Attention）技术，在大语言模型上下文处理能力方面实现了重大突破——几乎达成无限上下文。其核心在于将专家混合（MoE）与稀疏注意力巧妙融合。简单来说，MoBA将RAG AI Agent从上下文长度限制中彻底解放，使其能够高效处理整个代码库或超长文档。那么，这项技术究竟如何运作？下面逐一拆解。

Kimi推出MoBA：突破性实现无限上下文！

长上下文注意力机制的核心挑战

当输入序列长度显著增加时，Transformers模型会面临沉重的计算负担。默认的注意力机制要求每个token与所有其他token逐一比对，计算成本随序列长度呈二次方增长。当需要处理整个代码库、多章节文档或密集的法律文本时，这种开销成为不可避免的性能瓶颈。

MoBA：基于块的混合注意力机制

MoBA（块注意力混合）的设计思路直观清晰：将专家混合的理念应用于注意力机制。它将输入序列切分为多个块，并通过可训练的门控函数，为每个查询token计算其与每个块之间的相关性得分。只有得分最高的少数块被纳入注意力计算，从而避免了每个token与完整序列中所有token逐一比较的笨重做法。

具体而言，块是将序列均匀分割为等长的跨度。每个查询token首先查看每个块中键的汇聚表示（例如均值池化），随后对这些块按重要性排序，挑选出最相关的几个块进行详细注意力计算。当然，包含查询自身的块始终会被选中。因果掩码机制确保token不会看到未来信息，保持从左到右的生成顺序。

在稀疏注意力与完整注意力之间平滑切换

MoBA并非完全替代标准注意力，而是作为一个可插拔的替代方案，且参数数量保持不变。它与标准的Transformer接口兼容，允许在不同层或训练阶段灵活切换稀疏与完整注意力。例如，在有监督微调等特定任务中，某些层可以保留完整注意力，而大多数层则使用MoBA以降低计算成本。

门控机制是核心：它确保每个查询只关注一小部分块。因果性通过过滤未来块，以及在查询当前块内使用局部掩码来实现。下图清晰展示了查询如何被路由到少数几个“专家”块的键/值上，而非整个序列。门控将每个查询分配到最相关的块，从而将注意力计算复杂度从二次方降至子二次方。

具体来说，门控机制首先计算每个查询与每个块的凝聚表示之间的相关性得分，然后为每个查询选出得分最高的前k个块——无论这些块在序列中的位置有多远。由于每个查询只处理少数几个块，计算量维持在子二次方水平，但若门控得分显示足够高的相关性，模型依然可以跳转到距离很远的token。

PyTorch实现关键要点

从实现层面看，可以将键和值划分为多个块，计算每个块的均值池化表示，然后通过查询与池化表示相乘得到门控得分。接着，应用因果掩码确保查询不关注未来的块，再用top-k操作为每个查询选出最相关的块，最后组织数据高效进行注意力计算。

FlashAttention被分别应用于自注意力块（当前位置）和MoBA选定的块，最终通过在线softmax将输出合并。结果便是一个稀疏注意力机制，既保留了因果结构，又能捕获长距离依赖，同时规避了标准注意力的完整二次方成本。

这段伪代码逻辑的本质，是将专家混合与稀疏注意力结合，让每个查询只关注少数几个块。门控机制为每个块与查询打分，并选择前k个“专家”，从而减少键/值比较的次数。这使得注意力的计算开销保持在子二次方水平，能够在不大幅增加计算或内存负担的前提下，处理极长输入。同时，门控机制确保查询在必要时仍能关注到远距离的token，保留了Transformer对全局上下文的处理能力。正是这种基于块和门控的策略，让MoBA在大语言模型中实现了近乎无限的上下文处理。

实验观察与性能表现

使用MoBA的模型，在语言建模损失和下游任务性能上几乎与完整注意力持平。即便上下文长度达到数十万甚至数百万个token，结果依然稳定。通过“尾部token”评估的实验进一步证实，当查询能够识别相关块时，重要的远距离依赖关系依然能被有效捕获。

可扩展性测试显示，MoBA的成本曲线呈子二次方增长。研究人员报告，在一百万个token的情况下，速度最多可提升六倍，而且随着序列长度继续增加，增益还会更大。同时，MoBA通过避免使用完整的注意力矩阵，并利用标准的GPU内核进行基于块的计算，保持了内存友好性。

最终洞察与总结

MoBA用一个简单而高效的思路削减了注意力开销：让查询学会判断哪些块是重要的，然后忽略其他所有块。它保留了基于标准softmax的注意力接口，没有强制使用僵化的局部模式。许多大型语言模型都可以通过插拔方式集成这一机制。

这使得MoBA对于那些需要处理极长上下文的工作负载尤其具有吸引力——例如扫描整个代码库，或总结庞大文档。而这一切，几乎不需要对预训练权重进行大规模修改，也无需消耗高昂的重训练成本。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Kimi发布MoBA突破性实现无限上下文要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025022158726.html

ai 人工智能

上一篇：基于ImageNet预训练的DenseNet神经网络架构

下一篇：GPU算力管理原理机制与工作流程详解

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本周Lorna基于CFMS数据驱动决策的投资平台 03 / 本周前街购买记录追踪查询方法 04 / 本周一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本周人工智能股票预测与多金融工具交易信号

01 / 本月AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本月Lorna基于CFMS数据驱动决策的投资平台 03 / 本月前街购买记录追踪查询方法 04 / 本月一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本月人工智能股票预测与多金融工具交易信号

热点快看

06-30 19:04AI驱动的Degiro投资组合跟踪与可视化工具 06-30 19:04Lorna基于CFMS数据驱动决策的投资平台 06-30 19:03前街购买记录追踪查询方法 06-30 19:03一款专业Finta AI驱动筹款助手，高效智能募资工具 06-30 19:03人工智能股票预测与多金融工具交易信号

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别