Meta开源记忆层突破算力限制重塑Transformer大模型
Meta在凌晨发布了重磅开源创新——“记忆层”研究,直接针对Transformer架构大模型的核心算力瓶颈进行突破。 首先来看关键信息。当前主流的Transformer大模型在存储和检索数据时,一旦参数规模扩大,算力需求便会呈现指数级增长。而Meta此次提出的“记忆层”,核心思路是采用更高效的查询机
Meta在凌晨发布了重磅开源创新——“记忆层”研究,直接针对Transformer架构大模型的核心算力瓶颈进行突破。
首先来看关键信息。当前主流的Transformer大模型在存储和检索数据时,一旦参数规模扩大,算力需求便会呈现指数级增长。而Meta此次提出的“记忆层”,核心思路是采用更高效的查询机制,替代传统的暴力检索方法。

具体做法是将查询过程拆分为两个阶段。简单来说,就是比较查询键与两个较小集合中的键,而非遍历整个记忆层。这一改进带来的直接好处是:可以在不增加算力负担的前提下,为大模型增加更多参数。
举例而言,研究团队在一个仅有1.3亿参数的模型中,嵌入了128亿额外的记忆参数。最终性能竟能与Meta此前开源的Llama 2-70相媲美,但算力消耗降低了近10倍。这才是真正的“四两拨千斤”。
开源地址:https://github.com/facebookresearch/memory
Product-Key Lookup:将大海捞针变为两次精准搜索
传统的键值查找逻辑十分直接:每个查询必须与记忆层中的每一个键逐一比较,找出最匹配的值。这种方法在小规模场景下尚可接受,但一旦记忆层规模扩大,这种“暴力搜索”便成为算力黑洞。
打个比方,这就像在一座藏书百万的图书馆里寻找一本书。每本书都有唯一编号(相当于“键”)。传统方式是从第一本开始逐个核对编号,直到找到目标。如果图书馆只有几百本书,这还能行得通;但藏书量达到几十万,这种方法便难以承受。
Product-Key Lookup的巧妙之处在于采用了“分而治之”的策略。将原来巨大的键集合拆分为两个小得多的集合,通过两阶段查找大幅减少比较次数。
具体实现方法是:首先将查询键一分为二,生成两个子查询。每个子查询分别与对应的两个“半键集合”进行比较。由于每个半键集合的大小仅为原始集合的平方根,计算量直接下降了一个数量级。第一阶段,在每个半键集合中找出最相似的top-k个键。
第二阶段,将两个半键集合中得到的top-k键合并,进行综合评分,最终确定最优的top-k键。这个过程需要综合考虑两个集合中键的组合情况,以找到最完美的匹配。
除了计算效率,Product-Key Lookup在内存和带宽方面也极具优势。因为每个GPU只需处理一半的键,内存用量减少一半。同理,每个GPU只需返回与自己处理的键相关的值,内存带宽压力也大大缓解。
这套算法不仅显著提升了记忆层的查询效率,还打开了新的应用场景。例如大规模知识图谱查询、超长文本的语义检索等复杂任务,如今有了更可行的技术路径。
并行记忆层与共享记忆参数:让大模型“多核协同”且“知识共享”
并行记忆层的主要目的是优化GPU硬件性能。在传统Transformer中,模型规模一旦扩大,单个计算单元往往难以承受。并行记忆层将任务分配到多个GPU上,每个计算单元只负责自身的数据区块,既减轻了单点负担,又大幅提升了整体吞吐量。
这种设计使得模型能够在不过度压榨单个GPU的前提下,将记忆层扩展到数十亿甚至数百亿参数。算力的天花板被硬生生向上抬升了一截。
共享记忆参数则是另一个精巧的设计。它允许不同层的记忆层共用同一个参数集合。好处显而易见:总参数量下降,但参数利用率显著提升。
当一个记忆层收到输入后,它会先到“共享记忆池”中寻找最相似的记忆单元,然后根据结果生成输出。由于所有层指向同一个池子,它们可以并行操作且互不干扰。
为了应对训练过程中参数可能发生的变化,研究团队还配套开发了一套动态调整策略。当有新的键加入或旧的键被更新时,系统会自动调整对应的子集,无需对整个记忆池进行大范围改动。这既简化了维护流程,也增强了系统的整体稳定性。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Meta开源记忆层突破算力限制重塑Transformer大模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
