Moorcheh AI记忆助手:让AI真正记住你的简单方法
这篇研究来自Moorcheh AI与EdgeAI Innovations联合团队,于2026年4月以预印本形式发布在arXiv平台,编号为arXiv:2604.22085v1。

和AI聊得热火朝天,下次打开对话框,它却一脸茫然,仿佛初次见面——这种体验是不是很熟悉?你明明告诉过它你喜欢美式不加糖,项目截止日是下周五,讨厌冗长的回复,可它转头就忘得一干二净。这感觉,就像雇了个每天上班前都会格式化自己大脑的员工,你得不停地重复自我介绍。
这个被称为“跨会话持久性缺失”的问题,说白了就是AI没有真正的记忆。随着AI助手日益深入工作与生活,这个“小毛病”正演变成一个严重的工程瓶颈。行业预测显示,AI智能体市场将从2025年的78亿美元激增至2030年的520亿美元以上,到2026年底,超过40%的企业应用将嵌入AI智能体。这意味着,为AI打造一个可靠的“记忆系统”,已是迫在眉睫。
对此,Moorcheh AI与EdgeAI Innovations的研究团队提出了一个名为**Memanto**的解决方案。他们的思路颇为巧妙:当主流方案纷纷把记忆系统设计得越来越复杂时,Memanto反其道而行,采用了一套更简洁的架构,却在两个主流的AI记忆能力测试榜单上,分别取得了89.8%和87.1%的准确率,创下了当前的最佳成绩。
一、AI的记忆困境:为什么“更复杂”不等于“更聪明”
要理解Memanto的价值,得先看看现有AI记忆系统的“通病”在哪里。
不妨把AI助手的记忆问题比作管理一座图书馆。存入记忆就像收藏一本书,需要回忆时,则像让管理员去找书。
目前主流的AI记忆框架,如Mem0、Zep、Letta、A-MEM等,普遍在图书馆内部构建了一张复杂的“关系网”,即知识图谱。这套逻辑是预先标注好书籍间的关联,理论上能顺着网络快速找到相关内容。
然而,这种做法在实际运行中产生了所谓的“记忆税”。每存入一本书(一条记忆),系统都需要调用大型语言模型来提取实体、更新图谱和向量索引,这个过程可能耗时2到3秒。对于日处理上千条消息的AI客服,累积的延迟不容小觑。更麻烦的是,系统需要同时维护向量和图数据库两套基础设施,复杂度陡增。
研究团队仔细分析了Mem0公开的实验数据,发现了一个耐人寻味的细节:在其消融实验中,带知识图谱的版本相比纯向量版本,准确率仅提升了约2个百分点。这意味着,巨大的架构复杂度换来的性能增益却微乎其微。这促使团队思考:知识图谱或许并非提升记忆质量的关键。
二、Memanto的设计哲学:六条“好记忆”应该具备的特质
在设计Memanto之前,团队做了一件有趣的事:他们直接询问了AI本身。通过与Anthropic的Claude模型深入对话,让其描述自身记忆机制的局限。Claude给出了详尽的“自我诊断”,其指出的七个核心缺陷,最终直接映射为Memanto的六条设计原则。
第一条原则是“主动查询,而非被动注入”。 当前多数系统的做法是在对话开始时,将用户所有历史信息一股脑塞进AI的上下文窗口。这好比每天上班前,有人把一整摞档案堆在你桌上。但如果今天你只需处理一封邮件,这些档案不仅无用,还占据了宝贵的工作空间。更好的方式是配备一个“图书管理员”,让AI能随时主动查询与当前任务相关的记忆。
第二条原则是“时间感知与衰减”。 记忆并非同等重要。昨天提到的“明天下午三点开会”与半年前提到的“我喜欢蓝色设计”,权重截然不同。优秀的记忆系统应能感知时间,对临近事件赋予更高权重,让陈旧信息自然衰减。
第三条原则是“置信度与溯源追踪”。 AI所知信息的来源各异:有用户明确陈述的事实,有AI自行推断的结论,也有已过时的旧闻。可靠系统需记录信息的“可信度”和“来源”,避免AI对一条陈年推断言之凿凿。
第四条原则是“分类分层存储”。 这一点借鉴了认知科学。心理学家塔尔文曾区分情节记忆(具体事件)、语义记忆(事实知识)和程序记忆(技能方法)。这三类记忆服务于不同目的,混杂存储会相互干扰。
第五条原则是“矛盾感知”。 如果AI一月份记住“项目截止日是3月15日”,三月份又被告知“截止日推迟至4月1日”,两条记忆便产生矛盾。若系统不能主动发现并处理,AI将同时持有两个冲突“事实”,随着时间推移,这种“约束漂移”会导致其内部世界模型越来越混乱。
第六条原则是“零延迟写入”。 对于实时运作的AI工作流,记忆写入必须是即时的。每一毫秒的延迟,都意味着AI无法访问自己最新的认知。
三、技术核心:Moorcheh的信息论搜索引擎是如何工作的
Memanto的性能支柱,是其底层自主研发的“信息论搜索引擎”。
传统的向量搜索可以这样理解:你去一个大图书馆找书,管理员根据你问题的“方向”,在地图上找到方向最接近的书架。这种方式的核心是计算向量间的“几何距离”。
ITS引擎则做了根本性改变。其核心思路是:不再问“这条记忆在几何空间里离问题有多近”,而是问“这条记忆能减少你对当前问题多少不确定性”。用信息论的话说,就是用“信息增益”替代“几何距离”作为相关性判据。
为了让搜索既准又快,ITS还采用了“最大信息二值化”技术。简单说,它将高维浮点数向量压缩成紧凑的二进制表示,压缩比高达32倍,同时信息损失可忽略不计。好比将一份详尽地图简化为关键路标齐全的速查版。
这套设计带来两大优势。一是速度:在MAIR基准测试中,ITS引擎的距离计算延迟仅9.6毫秒,而同类产品PGVector和Qdrant需要37到86毫秒;其端到端速度比Pinecone加Cohere的组合方案快6.6倍,可持续支撑每秒超2000次查询,且准确率无损。二是确定性:相同问题每次返回完全相同的结果,不会因索引状态波动而产生差异。对于需要稳定输出的AI智能体,这一特性至关重要——微小的检索差异可能引发完全不同的推理路径。
最关键的是,ITS引擎在写入数据时完全无需构建索引。这意味着新记忆存入后,不到10毫秒即可被检索到,且无需调用任何大语言模型进行处理。
四、十三种记忆类型:给每条记忆贴上“正确的标签”
Memanto实现了一套包含13个类别的语义记忆分类体系,每个类别都有明确的含义、优先级和衰减逻辑。
这13个类别是:事实(客观信息,如“用户在太平洋时区”)、偏好(倾向,如“喜欢深色主题”)、决策(影响未来的选择,如“选用PostgreSQL”)、承诺(许诺或义务,如“周五前交报告”)、目标(希望达成的状态,如“Q4达到一万用户”)、事件(已发生的历史,如“下午两点与CEO会议”)、指令(规则准则,如“始终验证输入”)、关系(实体连接,如“Alice管理Bob”)、上下文(情境信息,如“当前正在进行预算评审”)、学习(经验教训,如“用户需要更简单的新手引导”)、观察(发现的规律,如“周五流量达峰值”)、错误(需避免的失误,如“勿用已弃用API”)、制品(文档或代码引用,如“Q3预算表格”)。
该分类体系有双重作用。一方面,当AI需查询特定信息时,可仅在对应类别中搜索,避免无关记忆干扰。另一方面,不同类别的记忆天然适用不同的“保质期”逻辑:承诺类记忆对时间极度敏感,事实类记忆高度稳定,上下文类记忆则快速衰减。这些差异被自动纳入检索权重的计算。
五、矛盾处理:当新记忆与旧记忆打架时
Memanto的另一特色是内置的矛盾检测与解决机制,这在当前主流竞品中是缺失的。
当系统存入一条新记忆时,它会自动在同类别的命名空间内,通过语义相似度匹配现有记忆,判断是否存在内容矛盾。一旦发现矛盾,系统不会静默覆盖或保留冲突,而是主动通知AI智能体,并提供三种解决选项:用新记忆替换旧记忆、保留旧记忆忽略新信息、或将两条记忆均标注“存在冲突”以待人工审核。
这个机制在长期运行的AI部署中影响深远。根据MemoryAgentBench的测试数据,当前所有被评估的AI记忆系统均在“多跳矛盾”场景(需跨越多条记忆才能发现的矛盾)中失败。这正是“约束漂移”问题——没有矛盾检测的系统,会随时间默默积累内部矛盾,最终导致AI行为难以预测。
六、五阶段拆解实验:究竟是哪一步带来了性能提升
为厘清Memanto各项设计的贡献,研究团队设计了一个五阶段的递进式消融实验,在两个主流基准上逐步叠加改进,精确量化每一步的效果。两个基准分别是LongMemEval(500道题,涵盖跨会话推理、时间推理等六类能力)和LoCoMo(多轮对话记忆测试)。
第一阶段(基线): 检索上限10条,相似度阈值0.15,推理模型为Claude Sonnet 4。此时LongMemEval准确率56.6%,LoCoMo为76.2%。两者近20个百分点的差距,主要源于LongMemEval问题措辞更长、主题更泛,导致关键信息语义相似度被稀释,在0.15阈值下被过滤。
第二阶段(扩大检索范围): 将检索上限提至40条,阈值降至0.10。仅此调整,LongMemEval准确率跃升至77.0%,提升20.4个百分点,是实验中单步最大提升;LoCoMo也提升6.6个百分点至82.8%。
这一结果揭示了关键的设计启示:传统信息检索追求“精准”,但AI智能体的记忆系统,“召回率”比“精准率”更重要。与其让系统替AI预先筛选,不如多提供些“原材料”,让AI凭借自身强大的推理能力去辨别有用信息。AI本身就是比任何预设规则都更强大的过滤器。
第三阶段(优化提示词): 将生成与评判用的提示词替换为Hindsight代码库的优化版本。LongMemEval提升2.2个百分点,LoCoMo提升0.1个百分点。提升有限,说明了一个常被夸大的事实:当检索层存在缺陷时,再好的提示词工程也难有作为。
第四阶段(最大化召回): 将检索上限进一步提高至100条,阈值降至0.05,并改用动态阈值门控。LongMemEval再提升5.8个百分点至85.0%,LoCoMo再提升3.4个百分点至86.3%。分析发现,错误并非因信息过多导致AI困惑,而是检索系统始终未能找出那句“被稀释的关键信息”。扩大检索范围,正是给这类信息更多被找到的机会。
第五阶段(升级推理模型): 将推理模型换为Gemini 3,以与其他系统公平对比。最终LongMemEval达到89.8%,LoCoMo达到87.1%,模型升级本身贡献了4.8个百分点的提升。这一步的意义在于隔离变量,清晰展示多少提升来自架构设计,多少来自底层模型能力。
七、横向对比:Memanto在竞争格局中的位置
与所有公开发布成绩的同类系统横向比较后,竞争格局相当清晰。
在纯向量系统阵营中,Memanto以89.8%和87.1%的成绩大幅领先于Mem0(66.9%/66.9%)和LangMem(58.1%/58.1%)。在混合图谱加向量阵营中,EmergenceMem(86.0%)、Supermemory(85.2%)和ENGRAM(78.0%)均未超过Memanto。
唯一在总成绩上超过Memanto的是Hindsight系统(LongMemEval 91.4%, LoCoMo 89.6%)。但Hindsight实现此成绩的代价极高:它同时使用了图数据库、在写入时调用大模型、采用多路并行检索、并通过递归反思进行后处理。研究团队为每个系统打了“架构复杂度分”(满分4分,每使用一项上述功能得1分),Hindsight得满分4分,而Memanto为0分。换言之,Memanto以最简单的架构,实现了仅次于最复杂系统的性能,差距仅1.6到2.5个百分点。
从运营成本看,这笔账更直观:对于一个日执行一万次记忆操作的AI智能体,Memanto日均费用估算约0.5美元,Mem0图谱版约2.32美元,Zep约1.70美元。仅与Mem0图谱版相比,每个智能体每年可节省约662美元。对于部署大量AI智能体的企业,这个数字将以倍数放大。
八、细化成绩:每类问题的表现如何
在最终配置下,Memanto在LongMemEval六个细分类别的表现为:单会话助手类100.0%,单会话用户信息类95.7%,单会话偏好类93.3%,知识更新类93.6%,时间推理类88.0%,多会话推理类81.2%。总体均分89.8%。
在LoCoMo四个细分类别的表现为:单跳推理78.7%,多跳推理70.8%,开放域问答92.4%,时间推理85.4%。总体均分87.1%。
多会话推理(81.2%)和多跳推理(70.8%)是相对薄弱的环节,这符合预期:这两类问题要求系统从散落于不同时间、会话的多个记忆碎片中综合提炼答案,难度本质高于单会话内的检索。这也是团队未来重点改进的方向之一。
九、客观看待局限性:这项研究还有哪些没解决的问题
研究团队在论文中亦坦诚列出了Memanto当前尚未解决的几个问题。
测试场景的局限性是其一。 LongMemEval和LoCoMo均聚焦于对话场景。但现实中,研究型智能体、代码生成智能体、多智能体协作等工作流各有其独特的记忆需求,目前尚缺乏足够的基准进行评测。
标注质量是另一个问题。 人工抽查发现,LongMemEval约有5%的问题存在标注不一致,LoCoMo这一比例约为6-7%。这意味着即便记忆系统回答正确,也可能因参考答案本身有歧义而被判错,构成了一个与架构质量无关的性能天花板。随着各系统成绩逼近此天花板,现有基准区分架构优劣的能力将减弱,开发更有针对性的评估协议势在必行。
记忆类型的手动分配仍是临时方案。 目前,将新记忆归类为“承诺”、“事实”还是“上下文”,需由用户在写入时手动指定。自动分类功能正在通过规则决策树开发中,届时将消除这一手动步骤。
多智能体协作场景下的记忆共享亦是未来工作。 当前Memanto的命名空间架构下,每个智能体拥有独立隔离的记忆空间。不同智能体间的记忆共享(及相应的访问控制与一致性协议)仍在开发中。
结语
说到底,Memanto这项研究讲述了一个在技术领域反复上演的故事:有时候,更简单的方案才是更好的答案。
当整个行业竞相在AI记忆系统中堆砌知识图谱、多路检索、递归反思时,Moorcheh团队选择了一条不同的路——将底层向量搜索做得足够精准,把记忆类型分得足够清晰,让矛盾检测足够及时,然后把真正的推理工作交还给语言模型本身。最终,他们在两个主流基准上,以最简单的架构取得了仅次于最复杂系统的成绩,同时将运营成本压缩到了竞品的四分之一。
这对普通用户而言,意味着未来AI助手真正“记住”你的可能性越来越大,且这种记忆不会因时间推移而变得混乱不堪,因为系统会主动梳理矛盾、管理时效。对企业而言,部署具备可靠记忆的AI智能体,也不再需要接受“记忆越好、账单越贵、架构越复杂”的捆绑套餐。
一个值得深思的视角是:如果AI自身都能准确描述其记忆系统的缺陷(正如本研究中Claude所做的那样),那么未来AI系统的改进,是否会越来越多地由AI参与设计?这个方向,或许比任何单一的技术突破都更具想象空间。
Q&A
Q1:Memanto和普通AI聊天记忆有什么不同?
A:普通AI聊天记忆是在每次对话开始时,将历史内容“塞”进上下文,好比把所有文件堆在桌上。Memanto则是在AI需要时主动查询相关记忆,更像一位随时可咨询的图书管理员。同时,Memanto能检测矛盾信息、区分13种记忆类型,并支持跨对话的持久存储,写入后不到10毫秒即可检索,无需等待索引构建。
Q2:LongMemEval和LoCoMo是用来测什么的?
A:LongMemEval是一个包含500道题的AI记忆能力基准测试,覆盖跨会话推理、时间推理、知识更新等六类场景,对话内容最长可达百万字符。LoCoMo则专注于多轮对话场景下的记忆连续性,测试单跳、多跳、时间推理等能力。两者是目前业内评测AI长期记忆能力最主流的两套标准。
Q3:Memanto的“矛盾检测”具体怎么用?
A:当AI被告知“项目截止日是4月15日”,后来又收到“截止日改至5月1日”时,Memanto会检测到这两条记忆冲突,并主动通知智能体。用户可选择用新记忆替换旧记忆、忽略新信息保留旧记忆、或将两条记忆均标注“存在冲突”以待人工处理,从而避免矛盾信息静默共存,逐步侵蚀AI的判断一致性。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek终端助手发布 美国开发者打造命令行AI工具
最近在终端编程工具领域,有个项目挺有意思,叫 DeepSeek-TUI。简单来说,你可以把它看作是为 DeepSeek 模型量身打造的“终端版编程智能体”,类似于 Claude Code 或 GPT 的 Codex 这类工具,当然,这个类比只是为了方便理解。 这事儿起因还挺有趣。前两天在社交媒体上,
Claude AI梦境研究:人工智能的潜意识与进化
Claude开始“做梦”了。这听起来有点科幻,但确实是Anthropic为其Claude Managed Agents平台推出的最新功能——“Dreaming”。 就像人有时白天百思不得其解,睡一觉反而豁然开朗一样,现在AI也学会了这招。这项功能允许AI在工作间隙“睡觉”反思,进行记忆清理、规律总结
宇树人形机器人应用商店UniStore正式开放
今天,人形机器人领域迎来一个里程碑式进展。宇树科技正式宣布,其全球首创的人形机器人任务动作应用商店——UniStore官方共享应用平台,现已面向全球开发者与用户全面开放。 通俗地讲,UniStore平台相当于人形机器人的“专属应用商店”。开发者能够上传自主编写的机器人动作程序与任务模块,用户则可像在
Midjourney体积雾模拟教程 轻松营造氛围感画面
在Midjourney中创作具有真实空气感与空间深度的雾气效果时,你是否常遇到画面扁平或质感虚假的困扰?这通常源于提示词与参数组合不够精准——真正的体积雾效需要一套系统化的指令策略,而非简单添加“fog”一词。以下这套经过反复验证的实战方法,将引导你把“雾气”从一层单调的贴图,转化为真正弥漫于场景之
智能电池摄像头选购指南 灵活安装与安全监控全解析
如今,家庭安防的选择越来越丰富,其中,智能电池摄像头以其独特的灵活性和强大的安全性能,正成为许多用户的首选。它不再仅仅是“记录画面”,而是通过先进的目标检测算法,将主动预警和智能监控提升到了一个新高度。无论是实时记录动态,还是及时推送通知,都让安全防护变得更加主动和便捷。加上其免布线的安装特性和多样
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

