腾讯与南洋理工破解AI记忆困境让机器学习选择性遗忘

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

腾讯与南洋理工破解AI记忆困境让机器学习选择性遗忘

热心网友时间：2026-05-14

转载

近期，一篇由腾讯AI实验室与南洋理工大学联合发布的学术论文（arXiv:2602.08030v2）在人工智能领域引发了广泛关注。该研究精准指出了当前主流AI推理模型存在的一个根本性瓶颈，并创新性地提出了一种名为Free()LM的解决方案，为解决这一难题提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

腾讯AI实验室和南洋理工大学联手破解AI推理的

我们可以将AI的推理过程类比为一位学者在书房中解题。起初，他会在桌面上展开必要的参考资料和草稿纸，思路流畅。然而，问题在于，这位学者只会不断地往桌上堆积新的纸张——无论是新的尝试、重复的演算还是被证明无效的思路——却从不进行整理。很快，桌面便被杂乱无章的文件所淹没，真正关键的信息反而难以寻觅。这正是许多先进AI模型在进行“长链条推理”或“长考”时所遭遇的典型困境。

研究团队深入分析了这类通过延长“思考链”来解决复杂问题的模型，揭示了一个关键缺陷：它们本质上只具备“申请新工作内存”（malloc）的能力，却缺乏“释放无用信息”（free）的机制。这种“只进不出”的单向模式，导致冗余信息、错误尝试和重复计算在推理过程中持续累积。最终，这些“认知噪音”或“思维垃圾”会严重干扰模型，使其性能出现断崖式下跌，甚至完全无法得出有效结论。

实验数据有力地支撑了这一观点。在基于Qwen3-8B模型的数学竞赛题目测试中，当推理长度超过16000个词汇单位（token）后，模型出现错误或陷入无意义循环的比例开始急剧攀升。更有甚者，在部分测试案例达到模型处理上限时，高达84%的情况都陷入了死循环。当推理长度被拉长至48000词时，模型的失效率竟达到了惊人的100%。这揭示了一个深刻的悖论：我们期望AI通过“更长时间的思考”来获得更优答案，但未经管理和整理的过度思考，反而会制造大量内部噪音，最终削弱其解决实际问题的能力。

那么，破解之道何在？研究团队的思路直指问题核心：既然症结在于只会积累而不会清理，那么就应该教会AI如何主动、智能地“遗忘”。他们提出的Free()LM方案，其核心思想就像是为AI配备了一位高效的“认知管家”或“思维图书管理员”。

这位“管理员”会周期性地介入模型的推理流程，全面扫描整个思考历史，精准识别出哪些是过时的中间步骤、哪些是已被证伪的尝试、哪些是已经解决的子问题，然后将其果断清理，仅保留对后续推理真正具有延续性价值的核心逻辑与结论。具体而言，这是通过一个名为“Free-Module”的可插拔附加组件实现的。它并非进行粗暴的全文过滤或随机删除，而是生成结构化的、精确的清理指令，例如“删除从‘让我尝试用坐标系方法求解’到‘此路不通，需要换一种思路’之间的所有内容”，从而以极小的计算开销，精准移除大段的冗余叙述。清理任务完成后，该模块自行卸载，模型得以在一个焕然一新的“思维工作区”中继续高效推理。

当然，最大的挑战在于：如何训练系统准确判断什么是“无用”信息？这本身就是一个高级的元认知任务。研究团队采用了一种巧妙且严谨的策略：他们首先利用先进的AI助手（如Gemini-2.5-Pro）对大量真实的模型推理过程进行初步的冗余信息标注，但这仅仅是起点。关键在于后续的严格验证流程——对于每一个候选的删除操作，他们都会测试在删除该段内容后，剩余的推理过程是否仍然能够（甚至更顺畅地）导向最终正确答案。只有那些“清理了垃圾却未伤及逻辑主干”的操作，才会被纳入最终的训练数据集。经过这般严苛的筛选，从8000个初始样本中最终得到了6648个高质量训练实例，从而确保了整个清理机制的安全性、可靠性与有效性。

实际效果究竟如何？多项测试结果给出了有力的回答。在从80亿到6850亿参数的不同规模模型上进行验证，Free()LM均带来了显著的性能提升。在数学竞赛题目测试中，它平均提升了3.3%的解题准确率。更值得关注的是，它在提升准确率的同时，显著压缩了不必要的推理长度。例如在Qwen3-8B模型上，平均推理长度被缩短了21.1%，而准确率反而从44.24%提高到了48.14%。这完美诠释了何为“事半功倍”——通过优化思考质量而非单纯增加思考量来提升表现。

最令人印象深刻的或许是其在超长推理任务上所展现的“挽救”能力。面对那些需要超过80000词推理步骤的极端复杂问题，标准的Qwen3-235B模型准确率直接降为0，而搭载了Free()LM的同一模型却能维持约50%的准确率。这好比两位解题者：一位被自己杂乱无章、层层叠加的草稿逼入死胡同；另一位则懂得定期整理思路，丢弃无效尝试，始终保持清晰的推理主线，从而最终成功找到答案。

此外，研究还发现了一个意外之喜：Free-Module展现出了良好的跨模型泛化能力。即使在架构完全不同的DeepSeek-V3.2模型上直接应用，它也能实现2.3%的准确率提升和近46%的推理长度压缩。这暗示，该模块学到的可能是一种通用的“推理过程整理”能力，而非针对某个特定模型设计的技巧，这为未来开发通用的AI推理优化服务提供了令人兴奋的可能性。

通过具体案例分析可以更直观地理解其工作方式。例如，在一个几何证明题中，Free()LM精准识别并删除了一段关于“尝试坐标系方法”但最终又自我否定的无关思考，使得推理主线始终保持聚焦与简洁。相比之下，其他基于简单规则的清理方法则容易出现误删关键步骤或清理不足的问题。同时，在那些不需要长链条推理的常规任务上，Free()LM基本保持了模型的原有性能，这说明其智能之处在于知道何时该介入清理、何时该保持静默，具备良好的情境感知能力。

从工程落地与部署角度看，Free()LM也展现了其实用性。虽然清理过程本身会带来约56%的额外延迟开销，但它同时减少了高达45%的内存使用量。在现实世界的AI应用部署中，内存（尤其是显存）往往是比单次推理延迟更为稀缺和宝贵的资源，因此这个权衡通常是可接受甚至是非常有价值的。研究团队进一步指出，通过对清理模块进行底层优化，其带来的延迟开销有望进一步降低至20%左右。

这项研究的意义，显然超越了单纯的技术指标改进。它挑战了一个深植于AI研发中的假设：更多的计算时间与更长的思考链必然带来更好的结果。事实证明，在AI推理中，与人类的高效思考一样，学会遗忘与学会思考同等重要。传统上，我们认为AI智能的增长主要依赖于模型规模的扩大与算力的堆砌。但Free()LM的成功提示我们，高效的信息管理与认知负载控制能力，可能才是迈向更高阶智能更为关键的一环。

这甚至将我们引向了一个认知科学的基本命题：遗忘在智能中的作用。人类大脑正是通过主动遗忘无关和过时的信息，来提升认知效率、促进抽象思维与创造性思考。而Free()LM正是让AI获得类似能力的一次重要工程实践与理论探索。它指明了一个清晰的未来方向：AI系统应从“只分配不释放”（malloc-only）的静态模式，转向“智能分配与动态释放并重”（malloc + free）的平衡模式。这或许是构建真正稳健、高效、可扩展的智能体的关键路径之一。

归根结底，这项研究揭示了一个朴素而深刻的道理：在追求更高智能的道路上，做减法有时比做加法更重要。未来的AI进化，或许不再仅仅是参数规模的无限扩张，而是在复杂性与简洁性、记忆与遗忘、探索与收敛之间，找到那个精妙而动态的平衡点。

Q&A

Q1：Free()LM具体是如何工作的？它的核心机制是什么？

A：您可以将其理解为一个智能的“推理过程整理周期”。它通过一个名为Free-Module的可附加组件，周期性地暂停模型的正常推理，进入“分析与清理模式”。在此模式下，系统会全面扫描已有的整个思考链历史，运用学习到的模式识别出重复、错误或已失效的中间步骤，并生成精确的结构化指令来删除这些冗余片段。清理完成后，模型在一个更简洁、更聚焦的上下文中继续推理，如此循环往复，确保思维过程的高效与清洁。

Q2：为什么论文中将现有AI推理模型比喻为“malloc-only”（只分配不释放）？

A：这是一个非常形象的比喻，源自计算机内存管理。现有的大多数AI模型在推理时，会不断地生成新的中间思考内容（这类似于程序不断申请新的内存空间），但这些内容无论是否有用、是否重复，都会一直被保留在当前的上下文窗口中，缺乏一个主动评估、筛选并释放无用信息的内部机制（即释放内存）。这就导致了“认知垃圾”或“信息熵”的持续堆积，最终会淹没有效信息，严重拖累模型的推理性能与稳定性。

Q3：Free()LM的实际效果有多好？有哪些关键数据支撑？

A：Free()LM的效果非常显著且具有突破性。它在多个权威测试基准上平均能提升模型准确率约3.3%，并同时大幅压缩了不必要的推理长度（平均缩短20%以上）。其最具价值的贡献体现在极端的长上下文、长链条推理任务上：当标准模型因信息过载与自我干扰而完全失效（准确率降至0%）时，采用Free()LM增强的同一模型仍能维持约50%的准确率。这强有力地证明了在AI推理中，“更精炼、更高质量的思考，往往比更冗长、更杂乱的思考更有效”。

来源:https://www.techwalker.com/2026/0313/3181085.shtml

上一篇：北京大学首创GENIUS测试：揭秘AI举一反三能力的真实水平

下一篇：腾讯AI新突破推荐系统精准挖掘用户隐藏偏好