数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

内存成本降低75%的新型LLM优化技术

AI热点日报时间：2026-06-28

热点解读

大语言模型（LLM）在落地应用时，高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展，动辄数十万乃至数百万token的输入，带来了巨大的计算开销与响应延迟，让许多团队望而却步。近期，东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”

大语言模型（LLM）在落地应用时，高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展，动辄数十万乃至数百万token的输入，带来了巨大的计算开销与响应延迟，让许多团队望而却步。近期，东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”（An Evolved Universal Transformer Memory）的技术，有望将此类成本大幅降低，最高可达75%。

新型LLM优化技术削减内存成本高达75%

该技术的核心思路并不复杂：通过一个专用的神经网络模块，教会模型在上下文中“聪明地”保留关键信息，同时果断丢弃冗余细节。如此一来，模型仅需处理真正有价值的内容，效率和性能自然能够得到同步提升。

优化Transformer内存机制

Transformer模型的响应质量，很大程度上取决于其“上下文窗口”中存储的内容——也就是用户输入的信息。可以将上下文窗口理解为模型的工作内存。窗口中存放什么、如何存放，直接影响着模型的输出效果，这也正是“提示工程”这一领域兴起的原因。

当前的主流模型已支持超长上下文窗口，能够容纳数十万甚至数百万个token——token是LLM对用户输入中词汇、词组、短语、概念和数字的数值化表示。长窗口允许用户向提示中塞入更多信息，但代价也很明显：更长的提示意味着更高的计算成本和更慢的响应速度。因此，优化提示内容、剔除不必要的token，同时保留关键信息，已经成为降本增效的关键路径。

现有的提示优化技术要么消耗大量资源，要么需要用户手动反复测试不同配置来缩小提示规模，效率并不理想。

神经注意力记忆模块

通用Transformer记忆的突破之处在于引入了一种名为“神经注意力记忆模型”（Neural Attention Memory Models，简称NAMMs）的简单神经网络。它的任务十分明确：逐一检查LLM内存中的每个token，决定是“记住”还是“遗忘”。

研究人员指出，这一新能力使Transformer能够主动舍弃无用的冗余细节，将注意力集中在最关键的信息上，这对于需要长上下文推理的任务而言至关重要。

Universal transformer memory （来源：Sakana AI）

NAMMs的训练独立于LLM之外，在推理时才与预训练模型结合使用，因此部署起来非常灵活。不过，它需要访问模型内部的激活值——这意味着目前只能应用于开源模型。

与Sakana AI此前开发的多项技术类似，NAMMs采用进化算法，而非基于梯度的优化方法。通过迭代变异和试错，挑选出性能最优的模型，进化算法不断优化NAMMs的效率和表现。这一点尤其关键，因为NAMMs要实现的是一种非微分目标：保留还是丢弃token，这一决策本身无法用梯度直接优化。

NAMMs作用于LLM的注意力层——这是Transformer架构的核心组件之一，负责判断上下文窗口中每个token之间的关系和重要性。基于注意力值，NAMMs决定哪些token该保留，哪些可以从上下文窗口中移除。这种基于注意力的机制还有一个显著优势：训练好的NAMMs可以跨模型复用，无需额外调整。例如，一个仅在文本数据上训练的NAMM，可以直接应用于视觉或多模态模型。

神经注意力记忆模型 (NAMM) 检查注意力层，以确定哪些标记应该从上下文窗口中保留或丢弃（来源：Sakana AI）

测试结果

为验证通用Transformer记忆的实际效果，研究团队在开源的Meta Llama 3-8B模型上训练了一个NAMM。实验数据显示，配备NAMMs的Transformer基础模型在处理自然语言和编码问题的长序列任务时，表现显著优于原始模型。同时，通过丢弃不必要的token，NAMM帮助LLM在执行任务时节省了高达75%的缓存内存。

研究者在论文中写道：“在我们的基准测试中，NAMMs为Llama 3-8B Transformer带来了明显的性能改进。此外，我们的内存系统还产生了一个显著的‘副作用’：每层的上下文大小被自动缩减，而我们在训练时从未明确优化过内存效率。”

NAMM 模型在提高模型性能的同时，还与领先的快速优化技术相竞争（来源：Sakana AI）

团队还进一步在70B版本的Llama上进行了测试，并扩展到其他模态和任务的Transformer模型，例如LLaVA（计算机视觉）和Decision Transformer（强化学习）。

研究人员表示：“即使在这些分布外的场景中，NAMMs通过丢弃冗余视频帧、次优动作等token，依然保持了其优势，使基础模型能够专注于最相关的信息，从而提升性能。”

任务依赖行为

一个特别有趣的发现是，NAMMs会根据任务类型自动调整其行为策略。

例如，在编码任务中，模型倾向于丢弃与注释和空白相关的连续token块——这些内容不影响代码的执行。而在自然语言任务中，模型则主要丢弃语法上冗余的token，这些token不影响序列的整体含义。这种任务感知的自主调节能力，让NAMMs显得格外智能。

研究团队已经发布了创建自有NAMMs的代码。对于处理数百万token的企业级应用，类似通用Transformer记忆这样的技术，能够直接转化为速度提升和成本降低。而训练好的NAMMs的跨模型可复用性，更使其有望成为企业中不同应用场景的通用优化工具。

至于未来方向，研究人员建议更先进的技术路径，例如在训练LLM的过程中就引入NAMMs，进一步扩展模型的内存能力。研究者在论文中总结道：“这项工作只是挖掘这类新型内存模型潜力的起点，我们预期它可能为未来几代Transformer的进步提供许多新的机会。”

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：内存成本降低75%的新型LLM优化技术要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2024122615782.html

ai 人工智能

上一篇：电力知识图谱与大模型融合：构建及行业应用解析

下一篇：Cursor不为人知的特别使用技巧

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Onesta.ai完全自动化AI销售助手高效智能获客提升业绩 02 / 本周屏幕捕获与AI处理的Chrome扩展Scan2AI 03 / 本周AI学术搜索引擎获1150万美元融资，年收入破150万 04 / 本周Mathpix AI多格式文档转换工具 05 / 本周AI驱动PDF聊天摘要工具 LightPDF

01 / 本月Onesta.ai完全自动化AI销售助手高效智能获客提升业绩 02 / 本月屏幕捕获与AI处理的Chrome扩展Scan2AI 03 / 本月AI学术搜索引擎获1150万美元融资，年收入破150万 04 / 本月Mathpix AI多格式文档转换工具 05 / 本月AI驱动PDF聊天摘要工具 LightPDF

热点快看

07-05 17:26Onesta.ai完全自动化AI销售助手高效智能获客提升业绩 07-05 17:25屏幕捕获与AI处理的Chrome扩展Scan2AI 07-05 17:25AI学术搜索引擎获1150万美元融资，年收入破150万 07-05 17:25Mathpix AI多格式文档转换工具 07-05 17:25AI驱动PDF聊天摘要工具 LightPDF

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别