内存成本降低75%的新型LLM优化技术
大语言模型(LLM)在落地应用时,高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展,动辄数十万乃至数百万token的输入,带来了巨大的计算开销与响应延迟,让许多团队望而却步。近期,东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”
大语言模型(LLM)在落地应用时,高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展,动辄数十万乃至数百万token的输入,带来了巨大的计算开销与响应延迟,让许多团队望而却步。近期,东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”(An Evolved Universal Transformer Memory)的技术,有望将此类成本大幅降低,最高可达75%。

该技术的核心思路并不复杂:通过一个专用的神经网络模块,教会模型在上下文中“聪明地”保留关键信息,同时果断丢弃冗余细节。如此一来,模型仅需处理真正有价值的内容,效率和性能自然能够得到同步提升。
优化Transformer内存机制
Transformer模型的响应质量,很大程度上取决于其“上下文窗口”中存储的内容——也就是用户输入的信息。可以将上下文窗口理解为模型的工作内存。窗口中存放什么、如何存放,直接影响着模型的输出效果,这也正是“提示工程”这一领域兴起的原因。
当前的主流模型已支持超长上下文窗口,能够容纳数十万甚至数百万个token——token是LLM对用户输入中词汇、词组、短语、概念和数字的数值化表示。长窗口允许用户向提示中塞入更多信息,但代价也很明显:更长的提示意味着更高的计算成本和更慢的响应速度。因此,优化提示内容、剔除不必要的token,同时保留关键信息,已经成为降本增效的关键路径。
现有的提示优化技术要么消耗大量资源,要么需要用户手动反复测试不同配置来缩小提示规模,效率并不理想。
神经注意力记忆模块
通用Transformer记忆的突破之处在于引入了一种名为“神经注意力记忆模型”(Neural Attention Memory Models,简称NAMMs)的简单神经网络。它的任务十分明确:逐一检查LLM内存中的每个token,决定是“记住”还是“遗忘”。
研究人员指出,这一新能力使Transformer能够主动舍弃无用的冗余细节,将注意力集中在最关键的信息上,这对于需要长上下文推理的任务而言至关重要。

NAMMs的训练独立于LLM之外,在推理时才与预训练模型结合使用,因此部署起来非常灵活。不过,它需要访问模型内部的激活值——这意味着目前只能应用于开源模型。
与Sakana AI此前开发的多项技术类似,NAMMs采用进化算法,而非基于梯度的优化方法。通过迭代变异和试错,挑选出性能最优的模型,进化算法不断优化NAMMs的效率和表现。这一点尤其关键,因为NAMMs要实现的是一种非微分目标:保留还是丢弃token,这一决策本身无法用梯度直接优化。
NAMMs作用于LLM的注意力层——这是Transformer架构的核心组件之一,负责判断上下文窗口中每个token之间的关系和重要性。基于注意力值,NAMMs决定哪些token该保留,哪些可以从上下文窗口中移除。这种基于注意力的机制还有一个显著优势:训练好的NAMMs可以跨模型复用,无需额外调整。例如,一个仅在文本数据上训练的NAMM,可以直接应用于视觉或多模态模型。

测试结果
为验证通用Transformer记忆的实际效果,研究团队在开源的Meta Llama 3-8B模型上训练了一个NAMM。实验数据显示,配备NAMMs的Transformer基础模型在处理自然语言和编码问题的长序列任务时,表现显著优于原始模型。同时,通过丢弃不必要的token,NAMM帮助LLM在执行任务时节省了高达75%的缓存内存。
研究者在论文中写道:“在我们的基准测试中,NAMMs为Llama 3-8B Transformer带来了明显的性能改进。此外,我们的内存系统还产生了一个显著的‘副作用’:每层的上下文大小被自动缩减,而我们在训练时从未明确优化过内存效率。”

团队还进一步在70B版本的Llama上进行了测试,并扩展到其他模态和任务的Transformer模型,例如LLaVA(计算机视觉)和Decision Transformer(强化学习)。
研究人员表示:“即使在这些分布外的场景中,NAMMs通过丢弃冗余视频帧、次优动作等token,依然保持了其优势,使基础模型能够专注于最相关的信息,从而提升性能。”
任务依赖行为
一个特别有趣的发现是,NAMMs会根据任务类型自动调整其行为策略。
例如,在编码任务中,模型倾向于丢弃与注释和空白相关的连续token块——这些内容不影响代码的执行。而在自然语言任务中,模型则主要丢弃语法上冗余的token,这些token不影响序列的整体含义。这种任务感知的自主调节能力,让NAMMs显得格外智能。
研究团队已经发布了创建自有NAMMs的代码。对于处理数百万token的企业级应用,类似通用Transformer记忆这样的技术,能够直接转化为速度提升和成本降低。而训练好的NAMMs的跨模型可复用性,更使其有望成为企业中不同应用场景的通用优化工具。
至于未来方向,研究人员建议更先进的技术路径,例如在训练LLM的过程中就引入NAMMs,进一步扩展模型的内存能力。研究者在论文中总结道:“这项工作只是挖掘这类新型内存模型潜力的起点,我们预期它可能为未来几代Transformer的进步提供许多新的机会。”
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:内存成本降低75%的新型LLM优化技术要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点提起在线表单工具,大多数人会立刻想到Google Forms——功能全面、免费且操作简便。然而,每次从零开始创建表单往往伴随着大量重复性工作:逐一设置字段、调整布局、配置逻辑条件……假如有一款工具能根据你的需求“智能生成”表单,效率将得到质的飞跃。 它适合谁? 无论是希望快速获取客户反馈的产品经理,
将表单和图片转换为Excel表格?如今借助AI技术,这一过程已实现自动化,并且识别精度相当出色。 什么是FormToExcel? 简而言之,FormToExcel 是专门处理纸质文档数据的强大工具。它能够从PDF、JPG、BMP等格式的文件中,将表单、表格、收据和发票直接转换为您需要的Excel电子
在日常数字文件管理工作中,许多用户都会遇到这样的难题:文件命名杂乱无章、散落在不同位置,查找起来既费时又低效。Riffo 正是为破解这一痛点而诞生——它是一款基于人工智能的智能文件重命名与整理工具,专为摄影师、设计师以及其他需要高效管理素材的专业人士打造,旨在显著节省时间、提升工作流程效率。 什么是
在数字化工具层出不穷的当下,能够真正覆盖多场景需求的集成平台屈指可数。Berack AI 精准瞄准了这一市场空白——它并非单一功能的聊天机器人,而是一套面向现代工作流程的全方位生产力工具集。 哪些场景用得上 从社交媒体管理到市场营销,从内容创作到SEO优化,再到YouTube视频制作、自由职业者接单
- 日榜
- 周榜
- 月榜
热点快看
