小红书RedKnot推理引擎开源长上下文处理效率翻倍

AI热点日报时间：2026-07-01

热点解读

小红书团队开源自研RedKnot推理引擎，通过将KVCache沿注意力头维度拆解并引入头分类稀疏等机制，实现长文本处理效率显著提升。在8卡H800环境下，首字生成时间加速1 6至3 54倍，单卡并发能力提升4 7至7 8倍，预填充计算消耗削减67%至79 5%，推理精度保持在稠密模型性能95%以上。

开源新方案！小红书团队RedKnot推理引擎，让长文本处理既快又省

在生成式AI的应用场景里，如何让模型在处理超长文本时，既反赌又吃得少，一直是工程师们头疼的“硬骨头”。最近，小红书技术团队开源了他们自研的RedKnot推理引擎，给长上下文任务带来了一套“降本增效”的新思路。

RedKnot的核心创新，说白了，就是打破了传统的KV Cache（键值缓存）处理模式。以往，大模型在推理过程中，缓存是按token（词元）维度存储的。这导致一个问题：处理长文本时，内存开销跟着线性增长，推理速度和并发能力都被拖累得够呛。RedKnot是怎么解决的呢？它另辟蹊径，把KV Cache沿注意力头（Attention Head）维度进行拆解，并引入“头分类稀疏”、“稀疏FFN”以及“SegPagedAttention”三大机制，实现了算法逻辑与存储粒度的统一。这背后的工程思路，可以说是相当巧妙。

架构调整带来的性能提升，数据说了算。在8卡H800的高性能计算环境下，实测结果显示：RedKnot能将首字生成时间（TTFT）加速1.6倍到3.54倍，单卡并发能力更是提升了4.7倍到7.8倍。预填充阶段，计算资源消耗（FLOPs）被削减了67%到79.5%。拿DeepSeek-V4-Flash模型在128K超长上下文任务上的表现来说，首字生成速度提升了5.16倍，KV数据传输效率也优化了6.3倍，而推理精度依然稳健，稳稳保持在稠密模型性能的95%以上。这组数据，确实够亮眼。

从行业角度看，RedKnot的开源为推理引擎的工程优化提供了一个重要参考。在算力资源越来越金贵的今天，这种通过底层架构精细化拆解来缓解长文本推理负担的思路，无疑为构建更轻量、更高效的AI推理系统开辟了一条新路径。目前，相关代码已经正式开源，期待它能推动长文本AI应用的普及与落地。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：小红书RedKnot推理引擎开源 长上下文处理效率翻倍要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://news.aibase.com/zh/news/29262

推理引擎

上一篇：DeepSeek R1多模态模型已开源迁移

下一篇：谷歌AI概览新增热门新闻轮播实时新闻嵌入AI摘要

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本周一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本周WhisperNotes智能音频笔记应用 04 / 本周Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本周字节将河马爱学并入豆包构筑AI产品全家桶

01 / 本月Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 02 / 本月一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 03 / 本月WhisperNotes智能音频笔记应用 04 / 本月Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 05 / 本月字节将河马爱学并入豆包构筑AI产品全家桶

热点快看

07-02 14:27Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析 07-02 14:27一款实用的YouTube视频高亮标注Chrome浏览器扩展插件 07-02 14:27WhisperNotes智能音频笔记应用 07-02 14:27Sharpen AI：Chrome扩展秒转Google Meet为笔记邮件任务 07-02 14:26字节将河马爱学并入豆包构筑AI产品全家桶

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别

小红书RedKnot推理引擎开源 长上下文处理效率翻倍

开源新方案！小红书团队RedKnot推理引擎，让长文本处理既快又省

小红书RedKnot推理引擎开源长上下文处理效率翻倍