腾讯混元发布Hy-Memory:打造超级记忆AI智能体第二大脑
5月28日,腾讯混元正式推出了Hy-Memory记忆管理方案。若用更通俗的说法来解释,这是一个专为Openclaw这类需要长期协作的AI Agent打造的专属记忆插件,其核心目标是成为Agent真正意义上的“第二大脑”。 根据官方公开的资料,Hy-Memory的核心设计包含了六层记忆框架、Syste
5月28日,腾讯混元正式推出了Hy-Memory记忆管理方案。若用更通俗的说法来解释,这是一个专为Openclaw这类需要长期协作的AI Agent打造的专属记忆插件,其核心目标是成为Agent真正意义上的“第二大脑”。

根据官方公开的资料,Hy-Memory的核心设计包含了六层记忆框架、System1快速响应与System2深度思考的双系统机制,以及演化链这三大底层核心技术。这套综合方案能够让Agent在长期使用过程中,切实做到“记得牢、记得准、记得精简、且更懂你的需求”。
在权威的公开测试集上,Hy-Memory的表现全面超越了目前主流的各类记忆框架。它有效解决了记忆碎片化的行业难题,存储的记忆数量减少了70%以上,同时每条记忆蕴含的信息密度提升了45%有余。在处理超长对话上下文时,Hy-Memory消耗的Token数量降低了35%,而记忆的更新速度提升了20%。
以下是关于Hy-Memory的详细技术介绍。
Agent 长期任务对记忆能力的要求远超普通对话
许多Openclaw的资深用户,都曾描绘过一种近乎“三周体验曲线”的普遍感受。
第一周是热情满满的蜜月期。你会把自己手头正在忙碌的事情,比如一个项目的详细背景、近期的关键决策、未来的规划方向等等,一股脑儿地告诉Openclaw。它能回答各种问题、帮查资料、协助规划、写代码、起草文档。“这工具太好用了”——这几乎是所有人第一周使用后的共同心声。
到了第二周,不安的情绪开始滋生。你发现每天打开Openclaw,都得先花上3到5分钟来提醒它我们当前在做什么。它似乎很难记住几天前讨论过的某个关键判断。你跟它说“按之前那个方案来”,它会反问“具体是哪个方案”;你说“那个我们已经排除了的选项”,它却怎么也想不起来排除的是什么,以及当初排除的原因。不是完全没记忆,Openclaw默认的记忆机制能记住一些最近的对话原文,但跨天、跨会话、涉及更深层逻辑判断的信息,往往就会出现“记忆漂移”。
到了第三周,你会下意识地降低使用深度。你不再愿意与它进行深入的探讨,不再问“这个发展方向我该不该选”,因为你心里清楚,明天它就忘了。你只问那些最具体、最即时的浅层问题:搜个资料、查个语法、改一段文字。
最常见的结局就是,Openclaw在你眼里,慢慢从“一个能与思想碰撞的伙伴”,降级成了“一个单纯的查询工具”。这并非Openclaw本身能力不足——它的核心推理能力一直很强。问题的关键在于:长期协作类的任务对长期记忆能力的要求,要远超普通的Chat对话模式。
Hy-Memory这款Openclaw记忆插件诞生的初衷,正是为了抹平这三周体验曲线中的后两周——让用户在第一周体验到的Openclaw有多好用,到了第三个月依然能保持那样的使用感,并且随着时间推移,它会越来越懂你。
1、长期任务对记忆系统提出的挑战远比想象中复杂
长期任务与普通Chat对话完全是两种类型的工作。无论你使用Openclaw来调研一个复杂的商业决策、撰写一本书、规划一次长途旅行,还是跟进一个跨季度的项目,一次对话可能包含30轮、50轮乃至100轮,期间需要不停地查资料、调用工具、阅读文档、给出方案、回退调整、再修改、再推进。一个会话可能持续数小时,而整个任务可能跨越数周时间。
一个合格记忆系统至少要妥善处理以下4个核心环节:
这其中任何一个环节出现短板,整体的使用体验就会崩溃。
2、一个优秀的Openclaw记忆插件需要满足的3项核心标准
在Hy-Memory的设计过程中,围绕着“什么样的记忆插件才能胜任Openclaw这种长期协作场景”,我们设定了三项硬性标准。
标准一:必须能完整保留历史信息。
用户与Agent交流过的所有“为什么选择这个、为什么否定那个”等判断逻辑和因果链条,绝对不能丢失。否则,下次它推荐方案时,可能会直接推荐回用户已经否定过的选项,白白浪费双方的时间和精力。
标准二:必须具备动态演化的能力。
一个人的状态是动态变化的。技术偏好、生活习惯、长期目标都会随时间而改变,对某件事的看法也会反复调整。这些动态变化都需要被准确记录。不能采用简单的“只记最新”覆盖策略,也不能采用“全部留下”的堆积策略,而是需要有一条清晰的演化轨迹。
标准三:在主流程中不仅要速度够快,还要能实现认知迭代与进化。
记忆插件绝不能拖慢用户当下打字、调用工具、等待结果的速度。每次记忆搜索需达到毫秒级别,记忆召回也不能成为响应的瓶颈。同时,还需要具备深层次的语义理解和事实处理能力。
接下来,我们将详细拆解Hy-Memory为满足这三项标准而设计的三大底层核心技术。
Hy-Memory 的三大核心技术
第一层:六层记忆框架——为每一种记忆信息找到其正确的存储位置
Hy-Memory做的第一件事,就是不再将所有记忆信息杂乱无章地塞进同一个数据表里。
试想一下——用户跟Openclaw聊到自己最近在准备出国留学,这段对话里其实混杂着多种不同类型的信息:
- “我正在准备出国留学”——这是一个客观事实
- “我比较喜欢北欧那种慢节奏的项目”——这是用户画像
- “我做重大决定前习惯先列一个利弊清单”——这是心智模型
- “我下周大概率会问关于如何找教授写推荐信的问题”——这是前瞻意图
这些信息的形态完全不同,但传统的记忆系统往往会将它们全部揉成一堆向量,搜索时就像一锅乱炖。Hy-Memory则将记忆清晰地划分为6个层级,每层各司其职。下面用一组跨领域的混合例子,让你直观感受一下Agent“究竟记住了什么”:
当用户问Openclaw“我做大决策有什么习惯”时,它应该优先检索L5心智模型层,而不是把过去100轮对话原文一股脑地塞过来。当用户问“我现在住在哪里”,L2层的一条事实信息就足够了。问什么问题,就检索哪一层,并采用不同的检索权重——这种分层架构让这一切都变得可行。
整个提示词也会因此变得干净、高效。模型的注意力不再被大量无关的对话原文所稀释。
第二层:双系统设计,既保障响应速度又能实现认知迭代
Hy-Memory将源自人类认知科学的System1/System2双系统机制,直接复刻到了Agent的记忆加工过程上——这就像是给Openclaw安装了一颗符合认知科学的“智能大脑”。
Hy-Memory将记忆加工过程拆分为两套独立的系统。
- System1(白班系统): 在用户按下回车键的那一秒内,实时处理需要写入的记忆。它负责记录原始痕迹、提取事实、更新用户画像、压缩会话摘要——也就是L1到L4层的工作。
- System2(夜班系统): 在秒到分钟级的后台运行。它负责抽取心智模型、构建知识网络、预测用户意图——也就是L5和L6层的深度工作。
为什么要这样拆分?因为深度认知处理非常耗时。抽取你的“决策心智模型”、构建你的“知识网络”——完成这一整套操作可能需要大型语言模型花费5到20秒时间。如果每次调用Openclaw都要等待20秒才能收到回复,没有人能忍受这样的体验。
但用户需要的也不仅仅是“快”——还要Agent越用越懂你。Hy-Memory的拆分策略,将这两件相互冲突的需求变成了两条独立的并行通道:
- 发送消息后,System1系统已经将“立即可用的记忆”写好了——下一句对话就能立即使用。
- System2系统则在后台进行更深入的认知处理——将你过去两周的对话沉淀为“专属的决策心智模型”。
结果对对话体验最直接的影响是:你每次说完的信息它能立刻记住;而它对您的整体理解,还在后台不断地深化和演进。
第三层:演化链——记忆可以更新覆盖,但不会丢失因果链条
第三层是Hy-Memory真正的杀手锏,也是我们认为用户在与Agent长期协作时最容易踩坑、也最值得做好的一个环节。
一个典型的长期场景:假设一位用户在过去大半年里,一直跟Openclaw讨论自己的健身计划。这半年中,他的训练方式经历了4次显著的态度转变:
- 去年春天——开始跑步训练有氧,感觉效果不错,体重和精神状态都有改善,对跑步充满信心。
- 去年夏天——跟练高强度间歇训练,强度太大,导致膝盖受伤,被迫停训了两周。
- 去年秋天——转向纯力量训练,只做重训,放弃了心肺功能,结果跑两公里都喘,感到挫败。
- 上个月——最终形成了“力量训练 + 慢跑 + 瑜伽”的综合方案,身体状态终于稳定下来。
今天,他打开Openclaw问:“我下个月想再加一种新的训练方式,你有什么建议?”
三种不同的记忆系统会给出三种截然不同的答案。
答案1:覆盖派(只记忆最新状态)
许多默认的记忆系统遵循“新信息覆盖旧信息”的原则。数据库中只剩下“用户当前采用混合训练方案,效果良好”这一条。Agent的回答会是:“你现在用的力量+慢跑+瑜伽组合很好,可以再加个CrossFit试试,效率会更高。” 这个回答不算错,但非常肤浅。它完全不清楚用户为什么会最终选择混合训练——它错过了“高强度间歇训练伤过膝盖”、“纯力量训练丢了心肺功能”这条完整的踩坑路径。直接推荐CrossFit很可能导致用户再次伤到膝盖。
答案2:堆积派(保留所有历史记录)
另一些系统则是“所有记录都保留,搜索时按向量相似度召回”。数据库中4条事实都在,但搜索“新训练方式”时,最接近、最相似的信息会被优先召回——大概率是“跑步起步效果不错”和“混合训练方案稳定”。中间的“高强度间歇训练导致膝盖受伤”、“纯力量训练丢失心肺功能”在语义空间里距离稍远,可能根本不会被召回。Agent的回答会是:“你跑步效果不错,混合训练也很稳定,可以再加点高强度间歇训练试试,提升心肺效率。” 这踩雷了。它丝毫没有意识到用户已经在高强度间歇训练上受过伤——重新推荐高强间歇训练相当于让用户再走一次老路,再伤一次膝盖。
答案3:Hy-Memory的演化链方案
Hy-Memory在写入第2条记忆时,会使用“supersedes”指针指向第1条记忆;写入第3条时指向第2条;写入第4条时指向第3条。这4条记忆通过指针串联成一条链条。D方案(混合训练,链头)↓ supersedes C方案(纯力量,丢失心肺)↓ supersedes B方案(高强度间歇训练,膝盖受伤)↓ supersedes A方案(跑步起步)。当用户询问“新训练方式选什么”时,搜索命中链头D,整条链条会自动展开——A、B、C、D的所有信息会一起返回给Agent。
此时,Agent拿到的就不再是孤立的结论,而是一段完整的演变历程:跑步起步→高强度间歇训练伤膝盖→纯力量丢失心肺→混合方案最终稳定。
它的回答会是这样的:“您之前在训练方式上走过一条完整的演变路径:从跑步起步,到高强度间歇训练伤过一次膝盖,再到纯力量训练丢了心肺,上个月才最终稳定在力量+慢跑+瑜伽这个组合上。因此,建议新方式时,我会提醒您避开高冲击性的爆发类训练,比如CrossFit或高强度间歇训练——您的膝盖已经有过一次教训。如果想增加新的内容,可以考虑游泳或骑行这类低冲击的有氧运动,或者爬山、长距离慢跑——这些都比再次尝试高强度间歇训练要安全。”
这个高质量的回答,并非来自模型本身,而是源于这条精心设计的记忆结构。
演化链的本质
从技术角度看,演化链本质上只做了两件事:
- 在写入新记忆时,通过“supersedes”指针指向旧记忆,从而形成一条因果链条。
- 当搜索命中链条上的任意一个节点时,自动展开整条完整的链条。
最新的判断位于最前端(链头),但那些被否定的、被替代的、被废弃的旧版本信息并不会丢失——它们仅仅退居到链条的后端,必要时可以随时展开。这是我们能想到的、最适合Agent长期陪伴用户的“长期记忆”形态。
Hy-Memory:全面超越同类记忆框架
Hy-Memory已经在LongMemEval和PersonaMem这两个权威的长期记忆评测标准上进行了测试。
1、LongMemEval评测:得分达85.2,远超其他同类框架。 LongMemEval是业内公认难度较高的长期记忆评测,涵盖500道题目,覆盖6个能力维度。Hy-Memory不仅在所有同类系统中胜出,还在6个维度中的4个维度上取得了最高分——尤其是最考验“动态演化能力”的偏好变化识别(+21.11个百分点)、时序推理能力(+9.63个百分点)、知识更新能力(+21.37个百分点)这三项上,大幅领先于同类产品。
2、PersonaMem评测:在同类产品中表现最优。 PersonaMem是一个基于6000多条消息/589道题的真实长期对话评测,更贴近“用户使用了数个月”的真实场景。
3、性能表现:在拥有更高记忆密度的同时,写入速度提升了8倍。
Openclaw用户能够直观感受到的改进包括:
- 写入速度快: 与mem0处于同一水平,是Graphiti框架的8倍,不会对Openclaw的对话主流程造成阻塞。
- 存储量少: 记忆条数仅为mem0的三分之一、Graphiti的四分之一到五分之一,采用本地嵌入式存储,无需外部服务,内存占用低。
- 信息密度高: 单条记忆的信息密度是mem0的3到4倍,每次召回的记忆都更具价值,提示词不会被噪声污染。
最后这一点对于长期任务至关重要:当一次会话进行到80轮对话时,召回的记忆每一条都必须具备高信息密度,否则提示词很快就会被噪声塞满,模型的注意力会被严重稀释。Hy-Memory的高密设计意味着,在同样的Token预算下,Openclaw能够看到的有效信息量是其他记忆系统的3到4倍。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:腾讯混元发布Hy-Memory:打造超级记忆AI智能体第二大脑要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点人工智能项目失败主因非技术,而是缺乏人工智能领导力。表现为认知不足、规划偏差、参与度低、推进策略缺失及软技能欠缺。领导者需具备战略思维,推动人机协同,方能实现长期价值,这是成功关键。
引言 好产品必然是简洁的,这一点几乎没有争议。但简洁究竟是什么?这是一个值得反复推敲的问题。 产品设计上的简洁,是不是意味着不让用户参与、直接给结果?或者只是二选一、尽量少给选项?如果这么理解,恐怕就走入了误区。 说到这里,为什么要把乔布斯和孙子兵法放在一起聊?因为简洁本质上是一种战略,而且是战略执
知识管理这件事,说到底就是在信息洪流里找到属于自己的高效路径。最近在试一个新工具,叫 "Ai好记 ",用下来确实帮了不少忙,尤其是在处理视频、播客这些长内容的时候。 每天要面对的东西实在太多——视频、播客、会议录音,动辄一两个小时。看到优质内容,点开几分钟就被打断,最后存了等于没看,这种情况太熟悉了。但
Vicuna模型的多轮对话能力源自ShareGPT数据集中的真实用户与ChatGPT交互记录,而非合成数据。研究团队清洗约7万个公开对话用于监督微调,确保模型掌握轮次切换逻辑。验证时通过代词回溯和术语一致性检查数据有效性。
- 日榜
- 周榜
- 月榜
热点快看
