韩阳大学团队研发AI助手：智能体如何真正记住并理解用户习惯

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

韩阳大学团队研发AI助手：智能体如何真正记住并理解用户习惯

热心网友时间：2026-05-15

转载

这项由韩国汉阳大学自然语言处理团队主导的创新研究，以预印本形式于2026年4月发表在权威学术平台arXiv上，论文编号为arXiv:2604.17886v1。该研究深入探讨了AI个性化记忆的核心挑战，为构建真正“懂你”的智能助手提供了新思路。读者可通过该编号检索并下载完整论文进行深入研读。

当AI助手

你是否遇到过这样的困扰：每次打开订餐应用，都要重复告知“我要便宜的”；向语音助手发出“帮我订机票”的指令，它却反复询问舱位选择——尽管你过去上百次都选择了经济舱。这种体验揭示了当前AI助手的一个根本局限：它们拥有记忆，却未必真正“理解”你。

汉阳大学的研究团队正是从这一日常痛点出发，致力于解决一个长期被忽视的关键问题：当用户提出一个模糊或不完整的请求时，AI能否基于对你过往行为的深度洞察，自动补全那些未曾言明的细节与偏好？

这听起来简单，实现却极具挑战。核心难点在于，用户的真实偏好往往并非通过直接陈述表达，而是隐含在一次次具体的选择行为中。例如，你连续三次选择廉价韩餐、预订免费入场的公园、租赁紧凑型轿车——将这些跨领域的行为串联分析，一个“注重性价比”的用户画像便清晰浮现。然而，在所有这些对话中，你从未明确说过“我偏好低价”。研究团队将这种隐藏的行为模式定义为“潜在偏好”，而教会AI识别并运用这种偏好，正是本论文的核心贡献。

为实现这一目标，团队完成了两项关键工作：一是构建了一个专门的评估基准MPT（多会话个性化工具调用基准）；二是提出了一种名为PREFINE的创新方法，旨在帮助AI从历史对话中提炼用户的潜在偏好，并将其应用于未来的决策中。实验结果表明，PREFINE不仅显著提升了任务完成的准确率，其记忆开销更是惊人地降至完整历史记录的1.24%，极大地优化了计算资源的利用效率。

一、为什么“记住你选过什么”还不够

在深入探讨解决方案前，必须厘清一个根本区别：记录用户的具体行为，与理解行为背后的动机和模式，是两种截然不同的能力。

我们可以用侦探工作来类比。普通的记录员只会抄录每个案发现场的孤立细节，而优秀的侦探则擅长在不同案件间寻找关联与模式，最终推断出嫌疑人的行为动机与心理画像。AI助手在处理用户偏好时面临同样的挑战：仅仅记录“本次选择了经济舱”是记录员的工作；而从用户多次出行记录中抽象出“该用户具有节俭倾向”这一规律，才是侦探式的高级认知。

研究发现，现有主流的AI记忆方法大多扮演着“记录员”的角色。例如，常见的RAG（检索增强生成）方法会存储原始对话文本，使用时检索相关片段；Mem0和LangMem等系统则会将对话压缩成简短的事实摘要。这些方法在处理简单的、重复性的需求时可能有效，但一旦面临需要跨场景推理和抽象归纳的复杂情境，其短板便暴露无遗。

举例来说，如果用户仅有餐厅消费和出行交通的历史记录，现在首次要求预订酒店，过去的具体行为无法直接告诉AI该选择几星级。但如果AI真正理解了此人“内在的消费观倾向于节俭”，它便能自然地推理出应推荐经济型酒店。这种从具体行为中抽象出普遍规律，再将规律迁移应用于全新场景的能力，正是研究团队所致力实现的“潜在偏好建模”。

二、给“偏好”画一张地图：MPT数据集是怎么建成的

要系统研究和评估AI对用户潜在偏好的理解能力，首先需要一套科学、严谨的“考题”。研究团队构建的MPT数据集，就如同为AI的“侦探推理能力”设计的一套标准化试卷，专门用于衡量其在复杂、模糊情境下推断用户隐性需求的本领。

MPT建立在已有的SGD（模式引导对话）数据集基础之上。SGD包含超过两万个涵盖20个不同生活服务领域的对话。研究团队从中筛选出合适的对话，将来自同一位虚拟用户的多个独立会话重新组合成连贯的“多会话历史”，以此模拟真实用户在不同时间、针对不同需求与AI助手交互的完整行为轨迹。

接下来是最关键的一步：偏好标注。由于SGD数据集本身不包含偏好标签，团队需要手动将各种API调用参数（即AI调用服务时填写的具体选项，如价格档次、出行人数等）归类到更高层次的偏好类别中。他们设计了两大核心偏好组：预算偏好和出行规模偏好。预算偏好进一步细分为“低消费”和“高消费”，前者覆盖“价格档次=便宜”、“是否免费入场=是”等参数，后者则对应“价格档次=高档”、“车型=大型”等。出行规模偏好则区分了“独行”和“多人同行”。

这套标注体系的精妙之处在于，其分类依据是行为背后的内在逻辑，而非具体的字段名称。也就是说，无论在哪项服务、使用哪个参数字段，只要这个选择反映了“用户想省钱”的意图，就将其归入“低消费”这一偏好类别。这使得分类体系具备了强大的跨服务、跨领域的通用性。

为确保这套分类符合人类直觉，团队邀请了19位志愿者进行独立标注验证。结果显示，预算类别标注的一致率达到89.7%，出行规模类别更是高达97.4%。这充分证明，团队设计的偏好分类方式与普通人的认知逻辑高度吻合。

在构建测试题目时，团队还刻意设计了两种难度模式：一种是“情境引导型”，对话中已给出部分明确信息，仅某个关键参数缺失；另一种是“无情境型”，连明确的信息提示也没有，AI必须完全依赖对用户历史行为的分析来猜测其偏好。后者无疑是考题中的难点，模拟了用户“什么都没说”的真实场景，AI必须单凭“行为档案”做出智能判断。

最终，MPT数据集包含了265个多会话对话，涵盖2020个单独会话和近四万轮对话交互。数据集精心设计了三种题型：332道“偏好回忆”题（用户在同一领域重复相同选择）、293道“偏好归纳”题（需要跨不同领域汇总线索进行推理），以及472道“偏好迁移”题（目标领域无任何先例，必须将从其他领域总结的规律进行迁移应用）。

三、三种考题，考验三种不同的侦探能力

研究团队将用户偏好的推断难度划分为三个递进的层次，每个层次都对应着侦探工作中的一种典型挑战，对AI的认知能力要求逐级提升。

第一种是“偏好回忆”。以机票订购为例，假设用户历史记录中有三次都明确选择了经济舱。当用户再次发出“帮我订一张机票”的指令时，AI只需翻查同类历史档案，找到一致的行为模式即可。这主要考验的是“记忆检索”能力，是最基础的层级。

第二种是“偏好归纳”。假设用户从未在乘机记录中明确选择过舱位，但在餐厅消费时选择了便宜韩餐，在景点游览时选择了免费公园，在租车时选择了紧凑型车。现在，AI需要解答一道综合推理题：这些来自不同领域的节俭行为，能否拼凑并归纳出“此人倾向于低消费”的结论，并据此推断他在机票场景下会选择经济舱？这要求AI具备跨领域归纳的能力，从看似不相关的分散线索中找出共同的行为模式。

第三种是“偏好迁移”。难度再次升级：用户不仅在目标领域（如机票）没有任何明确的历史选择，甚至连可供横向类比的其他领域选择也极为有限。AI必须从极为有限的、跨域的行为证据出发，推断出一个能够应用到全新、陌生场景的通用偏好。这如同侦探面对一个全新类型的案件，必须调用所有过往的办案经验进行类比和判断，而没有任何直接相似的先例可供参考。

研究发现，现有的AI记忆方法在第一种“偏好回忆”考题上表现尚可，但在需要深度推理的“偏好归纳”和“偏好迁移”考题上，成绩出现大幅下滑。以最基础的“全历史提示”方法为例，在无情境题目中，其偏好回忆的F1分数是53.19%，偏好归纳是43%，到了偏好迁移，则骤降至16.26%。这个断崖式的性能下滑揭示了一个关键问题：简单地将所有历史记录堆叠给AI，并不等同于AI能真正理解用户行为背后的逻辑。

四、PREFINE：像培养一个真正了解你的助手

正是为了从根本上解决上述问题，研究团队创新性地设计了PREFINE方法。如果说普通的记忆系统是一个把所有案卷杂乱堆在桌上的档案管理员，那么PREFINE就更像一位经验丰富的首席侦探，他会不断分析、总结、修正自己对案件规律的判断，并将最终结论凝练成一份可随时调用的、高度抽象的“用户行为画像”。

PREFINE的工作机制可以理解为一个持续的自我优化循环：每当一轮新的对话交互结束，AI（即“侦探”）会检视这次对话，尝试提出一个新的假设来解释用户的行为动机；接着，对这个假设进行严格的自我审查，评估其是否合理可靠；如果审查不通过，就修改假设，再次进行验证。这个“提出假设→检验假设→修正假设”的迭代过程，在论文中被称为“生成-验证-精炼”循环。

具体而言，PREFINE的“生成假设”模块负责从当前对话内容、调用的服务接口以及已积累的偏好记忆出发，生成一个对用户偏好的新描述。这个描述不是具体的选项记录，而是一种抽象的行为规律总结，例如“用户倾向于在各类消费服务中选择经济实惠的选项”。

“验证假设”模块则扮演着严谨的质疑者角色，依据四条核心标准来判断假设是否可靠：证据是否充分（需由多次一致行为支撑）、抽象程度是否合适（不能只是具体选择的同义重复）、是否具有可操作性（能明确指导未来的具体选择）、是否在时间上保持一致（能反映用户最新的行为变化）。

如果验证通过，该假设便作为用户当前的“偏好画像”存入长期记忆。如果未通过，“精炼假设”模块会根据质疑意见调整描述，并重新提交验证，此过程最多循环三次。论文中的一个实例生动展示了这一过程：在分析第一次对话（用户选择了评分为6的电影）后，AI最初提出“用户偏好评分中等的电影”，但被验证模块否决，认为描述过于具体且依据不足；修改为“用户偏好容易获取的电影内容”后再次被否，认为对未来决策的指导意义不足；第三次修改为“用户对电影兴趣有限”，这才通过检验。随着更多会话的加入，偏好描述逐渐演化为“用户在各类服务中倾向于选择经济实惠和简单的选项”，最终凝练为一句话的行为画像存入记忆。

PREFINE还有一个至关重要的设计：其记忆内容是抽象的、与具体服务接口无关的自然语言描述，而非绑定于特定服务字段的具体值。这意味着，即使未来AI调用的服务接口更换了字段名称，甚至进入了训练时从未见过的全新服务领域，先前积累的抽象偏好记忆依然有效。在接入新接口时，AI会将这条抽象的偏好描述，智能地重新映射到新接口的具体参数字段上。团队专门在七个全新的服务领域（如露营地预订、城市旅游导览等）上验证了这一特性，这些领域的字段名称与训练时完全不同。结果显示，使用GPT-5作为推理模型时，PREFINE的性能提升依然显著，这强有力地证明了其记忆内容具备真正的、强大的跨领域迁移能力。

五、数字背后的故事：实验结果说明了什么

研究团队使用MPT数据集对多种方法进行了系统性的全面对比。参与评估的推理模型涵盖了从轻量级到旗舰级的不同档次，基准方法则包括直接提供全部历史记录的“全历史提示”方式，以及RAG、Mem0、LangMem三种主流的记忆增强方法。

在情境引导型题目上，PREFINE在偏好精确匹配率方面，平均比全历史提示方式高出约13个百分点。在更具挑战性的无情境型题目上，PREFINE在偏好推断的F1分数方面平均提升约3.4个百分点，尤其在偏好归纳类别上提升幅度达到9个百分点。

RAG方法在偏好回忆类题目上表现尚可，但在需要深度推理的偏好归纳和迁移任务上明显掉队。LangMem在回忆类题目上甚至取得了64.4%的高分，但同样无法将这种优势延续到更难的题目上。这印证了团队的核心判断：现有方法更擅长表面的记录与检索，而非深层的推断与抽象。

内存效率的对比数据同样引人注目。全历史提示方法平均每个用户需使用1883.57个token来存储记忆；而PREFINE仅需23.28个token，相当于前者的1.24%。更值得注意的是，随着用户会话数量的线性增加，全历史提示所需的token量持续攀升，而PREFINE的记忆大小几乎保持稳定。这是因为PREFINE存储的是经过精炼的行为规律，新的会话只会用于更新和完善这条核心规律，而不会简单地叠加新的原始内容。

研究还发现，PREFINE显著改善了AI对API调用参数数量的预测校准。一个完整的API调用不仅要填对参数值，还要准确判断该填写几个参数。使用全历史提示方法时，AI预测的参数数量与真实所需数量之间存在较大偏差；使用PREFINE后，这一偏差显著降低。换句话说，PREFINE让AI在决定“该填什么”的同时，也更准确地知道“该填多少”。

实验也诚实地指出，PREFINE并非对所有模型都表现出均匀的性能增益。对于某些本就倾向于低估参数数量的基线模型，PREFINE进一步收紧行动空间的效果，反而导致了轻微的召回率下降。研究团队认为，这并非根本性缺陷，而是一种可预期的权衡：更精准的偏好范围限定，有时会以牺牲少量召回率为代价，换取更高的决策精确率。

六、PREFINE和它的竞争对手到底有何不同

要深入理解PREFINE为何有效，不妨将其与其他主流记忆方法进行更细致的比较，就像审视侦探事务所里不同流派的工作方式。

RAG的工作方式是将所有历史对话原文存档，需要时根据当前问题的关键词检索最相关的片段。这就像一个档案馆员工，每次接待客户咨询都去翻阅堆积如山的原始文件。其问题在于，原始文件充满细节噪音，且相关性判断严重依赖文字表面的相似性，不涉及对行为规律的深层理解。

Mem0则将历史对话压缩成简短的事实陈述（如“用户上次订了经济舱”），存储这些摘要事实，检索时找出语义最匹配的几条。问题在于，这些仍然是具体行为的孤立记录，而非行为背后连贯的、可迁移的规律。

LangMem更进一步，它会利用AI将历史信息整理成结构化的知识（包括语义类、情节类和程序类）。它比Mem0更接近“理解”，但其存储形式仍以“已知事实”为主，缺乏动态验证和跨域抽象的机制。

PREFINE的独特之处在于，它存储的不是“用户做了什么”的事实列表，而是“用户为什么这么做”的抽象行为规律；不是一堆离散的记录，而是一条经过多轮验证、反复修正的动态行为假设。这条假设足够抽象以跨越不同的服务领域，足够精练以用一句话概括，又足够具体和可操作以指导未来的参数填写。研究团队将这种记忆形式总结为“可修订的偏好假设”，强调了其动态性、抽象性和可操作性，这是其他方法所不具备的核心特征。

归根结底，这项研究揭示了一个关于AI个性化发展的根本性问题：真正了解一个人，不在于记住他做过什么，而在于理解他行为背后的逻辑与动机。

当下的AI助手在记忆容量上已不短缺，RAG、Mem0、LangMem等技术都能存储海量信息。但实验结果清晰地表明，存储得多并不等同于理解得深。一个将用户所有历史记录都囫囵吞下、未经提炼的AI，在面对新的、跨领域的偏好推断任务时，其表现甚至不如一个将庞杂历史行为提炼成一句精准结论的AI。

PREFINE的研究思路指出了一个极具前景的方向：与其让AI机械地背诵你的选择清单，不如让它学会识别你行为模式背后的内在逻辑。这种逻辑一旦被准确提炼，不仅适用于你曾使用过的所有服务，也适用于你将来第一次接触的任何新服务。这意味着，一个真正“懂你”的AI助手，在你第一次尝试预订豪华露营时，就能根据你一贯的节俭习惯，自动推荐标准帐篷而非豪华木屋，而无需你再次进行繁琐的解释。

当然，这项研究仍有许多值得深入探索的课题。目前MPT数据集涵盖的偏好类别还比较有限，现实中人的偏好要复杂、多维得多，并且会随时间动态演变。此外，真实世界用户的历史记录往往更加杂乱，充满噪音、矛盾和短期波动。研究团队也指出，未来的工作需要扩展到更丰富的偏好分类体系、能够随时间自适应演化的偏好建模机制，以及应对更长、更嘈杂的真实交互历史的能力。

对于普通用户而言，这项研究带来的启示是：未来的AI助手可能会越来越少地问你“你想要什么”，而是越来越多地基于对你长期行为模式的深度理解，主动给出恰如其分的个性化建议。然而，这也引出了一个值得深思的伦理与体验问题：当AI不再只是一个被动响应的工具，而是一个真正记住你行为规律、并能进行预测的“数字同伴”时，我们该如何看待、信任并管理这种新型的人机关系？

有兴趣深入了解技术细节的读者可以通过arXiv编号2604.17886查阅完整论文。同时，MPT基准数据集和PREFINE方法的实现代码均已开源，供学术界和工业界进一步研究与应用。

Q&A

Q1：MPT基准数据集中的“偏好归纳”和“偏好迁移”有什么区别？

A：偏好归纳要求AI从用户在多个不同领域的行为中，找出隐藏的共同规律。例如，用户在餐厅、景点和租车时都选择了便宜选项，AI需要从这些分散证据中归纳出“用户偏好低消费”这一抽象结论，并用它来预测新情境（如订酒店）下的选择。偏好迁移则难度更高，目标领域没有任何直接的历史证据可供参考，AI必须将从其他领域总结出的抽象规律，直接套用到一个全新的、从未见过的服务上，相当于在零先例情况下进行跨域推理和决策。

Q2：PREFINE的“生成-验证-精炼”循环具体是怎么运作的？

A：每当一轮新的用户对话结束时，PREFINE会首先基于当前对话内容、服务接口信息以及已有的偏好记忆，生成一个对用户偏好的抽象描述（生成）。随后，系统会依据四条核心标准对这个假设进行严格验证（验证）：证据是否充分（由多次一致行为支撑）、抽象程度是否合适（不能是具体选择的简单重复）、是否具有可操作性（能指导未来选择）、是否与最新行为一致。验证通过，则该描述作为更新后的偏好画像存入记忆；若不通过，则根据反馈意见修改描述（精炼），并重新提交验证，此过程最多循环三次。最终存储的是一句高度精炼的行为规律描述，而非具体的选项记录。

Q3：PREFINE的记忆内容为什么能在服务接口更换后依然有效？

A：核心原因在于，PREFINE存储的是抽象的行为规律描述（例如“用户倾向于在各类服务中选择经济实惠的选项”），而不是绑定于某个特定服务字段的具体参数值。这种抽象描述与具体的接口实现解耦。当AI需要调用一个全新的、字段名称完全不同的服务接口时，它会将这条抽象的偏好描述，智能地重新映射和解释到新接口的具体字段上。实验中，团队在七个字段名称与训练集完全不同的全新服务领域进行了验证，PREFINE依然保持了显著的性能优势，这充分证明了其记忆内容具备强大的、真正的跨领域迁移与泛化能力。

来源:https://www.techwalker.com/2026/0429/3185476.shtml

上一篇：中国科学技术大学AI技能图书馆：智能体从经验中学习成长

下一篇：深大复旦联合研发高效AI助手低内存实现强大功能解析