LongCat推出开源VitaBench 2.0版本 长期动态智能体基准新标杆
一位经常加班的职场白领,一位带着孩子外出游玩的父亲,你的AI助手能够准确区分他们各自需要的服务吗?
现实情况是,它往往做不到。
AI可以执行你给出的明确指令,却很难记住那些隐藏在场景和身份背后的潜在需求。它们是真的缺乏理解能力,还是“情商”有待提升呢?
自去年10月发布VitaBench 1.0并首次定义生活场景下智能体任务的复杂度后,美团Longcat团队再度推出VitaBench 2.0。这一次,他们的关注点不再仅局限于任务的难度,而是转向更深层次的挑战:AI能否真正理解一个不断变化的用户?
VitaBench 2.0是首个面向真实生活场景、聚焦长期动态用户建模的智能体评测基准。它系统化地评估大语言模型在长期、真实、动态的用户交互中展现个性化与主动性的能力。简单来说,就是考验AI的“情商”与“记忆力”。
VitaBench 2.0的“硬核”亮点非常明确:
- 高难度业界首创:首次将智能体场景与丰富的用户生态相结合,打造面向长期动态用户建模的智能体基准。它包含56名真实特征用户、819个复杂任务、超过2000个动态偏好以及66个可执行工具。
- 超长跨度动态追踪:平均每位用户包含2093个交互事件,平均时间跨度长达1580天,严格按时间线向Agent暴露,真实还原用户偏好的演变与迁移。这并非一周或一个月的短期测试,而是一场持续数年的“陪伴式”大考。
- 统一评测生态:针对长文本上下文学习与智能体记忆策略,搭建了统一的评测平台。这意味着,无论是比拼“记忆力”还是“检索力”,都拥有公平的竞技场。
01 设计原理:VitaBench 2.0的三维解构
能够得出这些结论,归功于VitaBench 2.0的核心设计。它不再是简单的问答,而是围绕三大创新构建了一套前所未有的评测体系。
1.1 搭建“人生副本”:让AI在真实用户轨迹中接受考验
不同于一次性的问答,VitaBench 2.0为56位虚拟用户,在送餐、到店、差旅等多个真实领域中,构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。
这背后是庞大而真实的数据支撑。如下图所示,这些图表直观地展示了我们构建的用户画像和偏好分布的真实性与复杂性。
具体来说,这个数据生态包含:
- 56个拟真用户,每个用户都拥有基于真实世界统计数据构建的独特身份、习惯和需求。
- 819个可执行任务,贯穿于用户的整个生命周期。
- 用户的偏好不是静态标签,而是会随着时间、事件而动态演变,平均每个用户的偏好会发生超过48次动态变化。
这些偏好被巧妙地嵌入到碎片化的互动历史中,包括对话记录和行为日志(如浏览、搜索、下单)。智能体必须像侦探一样,从这些混杂着“信号”与“噪音”的线索中,持续对用户进行理解。
1.2 引入“时间标尺”:将持续理解作为核心目标
传统的Agent评测关注“单个任务是否完成”,而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。
为此,评测的时间轴被拉长到了前所未有的尺度——用户的平均交互周期长达1580天(约4.3年),最长甚至达到2,974天。在这漫长的时间线里,智能体需要不断地提取、利用、并更新对用户的理解,才能在后续的任务中做出正确决策。这从根本上改变了评测的焦点,从单次任务的成功,转向了对用户偏好的考核。
1.3 设立“记忆擂台”:对决AI的两种记忆模式
为了探究记忆在长期用户建模中的作用,VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台,通过可扩展的接口,让两种代表性机制在此对决:
- 智能体记忆: AI自己决定记住什么、忘记什么,主动维护一个精炼的用户档案。
- RAG记忆: 像一个外部搜索引擎,根据当前任务检索最相关的历史片段。
通过对比这两种模式,我们可以清晰地看到不同记忆架构,以及同架构下的不同设计对个性化决策的真实影响,从而回答“AI应该如何记忆”这一关键问题。同时,为了考验AI的“眼力劲”,我们还设计了主动性任务。在这些任务中,AI必须意识到信息不足并主动提问,而不是盲目决策。
02 核心洞察:用数据看清模型的短板
VitaBench 2.0不仅给出了总分,更用数据揭示了模型们犯错的具体原因。如表1所示,这是主要模型在不同记忆设置下的性能排行榜。
从排行榜(表1)可以看出,即使在能看到全部历史记录的“开卷”模式下,最强的模型Claude-Opus-4.6的平均分也刚过0.5,说明从海量信息中准确提炼偏好本身就比较困难。而一旦切换到更真实的记忆模式,模型的表现出现了不同程度的下滑。
洞察一:时间越长,AI忘得越快
如下图所示,随着任务序列索引增加(即时间推移),所有模型的平均性能都在下降。这说明,无论是处理超长上下文的能力,还是记忆模块的累积误差,都严重限制了AI的长期服务能力。
更关键的是,记忆并没有成为解药。对比实验结果发现,大部分模型在接入Agentic Memory或RAG Memory后,性能反而低于直接使用全历史记录的场景——记忆不是装上就好,如何正确更新、检索和利用,才是真正的挑战。
洞察二:高“智商”不等于高“情商”
一个常见的假设是,开启模型的“思考模式”能提升其表现。然而,VitaBench 2.0 的实验结果给出了相反的答案:开启思考模式,在个性化任务上并不总是有帮助。
下图展示了模型在开启/关闭思考模式下的性能与效率关系。横轴是完成任务所需的交互轮数(越少越好),纵轴是平均性能(越高越好),理想的模型应位于左上角。可以看到,开启思考模式的点并没有稳定地比关闭模式更优越。
洞察三:AI普遍缺乏“主动沟通”的意愿
模型普遍缺乏在信息不足时主动提问的“眼力见”。所有模型家族在需要主动提问的任务上,得分都出现了“断崖式”下跌。例如,Claude家族的平均分从46.0骤降至27.4。这表明,AI倾向于“想当然”,而不是在不确定时“多问一句”。
洞察四:就算“喂到嘴边”,AI也未必会吃
为了分离“提取偏好”和“利用偏好”这两个难题,我们直接把真实用户偏好告诉模型。虽然性能有所提升,但仍有很大进步空间。即便把真实偏好直接告诉模型,多数模型仍然失败。这说明,即使拥有了准确的用户画像,在高压、多约束的决策中正确应用这些偏好,本身就是一个巨大的挑战。
洞察五:从“工具失误”到“情商不足”的瓶颈转移
我们对模型的失败原因进行了分类统计。在由66个真实工具构成的复杂生活服务场景中,早期模型更多地犯下工具使用错误,例如选错API或填错参数。而更强的模型(如DeepSeek-V4-Pro)虽然工具用得更好了,但在偏好理解和应用上的失败却成了主要矛盾。这表明随着模型基础能力的提升,个性化已是当前Agent的最大瓶颈。
03 总结:定义下一代智能体评测范式
VitaBench 2.0清晰地揭示了,当前AI在成为“高情商助理”的路上,依然任重道远。
它的核心价值,在于推动了评测范式的演进:从单点任务到长期陪伴,从被动执行到主动沟通,从黑盒到透明。这使得VitaBench 2.0成为一座连接技术与产品的“桥梁”,它用可量化的数据回答了“我的AI为什么不够好用”的问题,并为开发者指明了模型在“服务于人”这一终极目标上的具体短板。
我们希望,VitaBench 2.0能成为一个起点,激发更多研究关注智能体的个性化、记忆和主动性,共同推动AI从一个强大的“工具”进化为一个有温度的“伙伴”。
VitaBench 2.0 已全面开源,欢迎各大模型前来接受“情商”大考。
开源地址
- 项目主页: vitabench2.github.io/
- 论文链接: arxiv.org/abs/2605.27…
- GitHub: github.com/meituan-lon…
- HuggingFace:huggingface.co/datasets/me…
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
RAG四标融合企业知识资产体系四库协同GEO优化实践
生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指
一个普通上班人分享WorkBuddy使用心得与真实体验
前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不
AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓
别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。
GEO优化深度解析:AI偏好FAQ还是长文内容?
在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 17:42
2026-07-01 17:42
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
2026-07-01 17:41
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

