首页
AI
美团LongCat发布Agent评测基准VitaBench:高度贴近生活场景

美团LongCat发布Agent评测基准VitaBench:高度贴近生活场景

热心网友
转载
2025-10-21
来源:https://www.ithome.com/0/890/879.htm

10月20日最新消息,美团LongCat团队今日正式发布了一套高度贴近真实生活场景、面向复杂任务的大模型智能体评测标准——VitaBench。

美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”

根据最新介绍,VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建了涵盖66个工具的交互式测评环境,并设计了跨场景的综合任务。举例来说,在旅游规划任务中,要求智能体通过思考、调用工具和用户互动,完整执行从买好票到订好餐厅的全流程。

该团队首次基于深度推理、工具使用与用户交互三大维度,对智能体任务进行了量化拆解,以可控方式构建复杂问题。研究发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅为30%,反映出智能体在处理真实生活复杂需求时仍有明显差距。VitaBench现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”

随着大语言模型在复杂推理与工具调用能力上的快速进步,基于LLM的智能体在真实生活场景中的应用日益广泛。然而,现有智能体评测标准与现实生活场景的实际需求之间依然存在显著差距,主要体现在:工具生态过于简化、信息密度不足、模型探索性受限以及交互动态性缺失。

LongCat团队通过对美团生活服务场景的深入分析指出:现实世界任务的复杂性源于三大维度的交织影响——

推理复杂性:需整合多源信息、自主推理规划任务路径;

工具复杂性:需在高度互联的工具图中理解领域特征,精准调用目标工具;

交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现,团队构建了VitaBench,一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。VitaBench的评测榜单将持续更新维护,现已全面开源:

项目主页:https://vitabench.github.io

论文链接:https://arxiv.org/abs/2509.26490

代码仓库:https://github.com/meituan-longcat/vitabench

数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench

排行榜:https://vitabench.github.io/#Leaderboard

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

招商证券携投资者探访科达讯飞,共探AI创新与产业机遇

近日,招商证券携手全景网等平台,以“相伴成长 共赢未来”为主题,组织投资者走进人工智能标杆企业科大讯飞股份有限公司(002230),通过高管对话、业务展示、展厅体验等环节,深度解析这家科技巨头在通用

2025-10-21.

英特尔与沙特会谈合作 半导体区域产业联动迎新机遇

近日,英特尔公司首席执行官陈立武与沙特阿拉伯通信与信息技术部长阿卜杜拉・阿尔-斯瓦赫展开了一场重要会晤,双方就半导体及人工智能领域的潜在合作事宜进行了深入探讨。这一互动不仅为英特尔开辟新的发展机遇提

2025-10-21.

真我GT8 Pro定义街拍神器,标准版号称最强10月21日发布

10月20日消息,真我realme将在10月21日15:00举行新品发布会,正式推出备受期待的GT8系列旗舰手机。该系列包括定位“街

2025-10-21.

我国团队突破全球首个力学-位移混合控制统一理论

我国科研团队在机器人技术领域实现关键突破,成功构建全球首个 "力位混合控制算法统一理论 "。该成果突破传统依赖力传感器的局限,使机器人能够同步实现位置与力的精准控制。实验数据显示,采用新算法后机器人执行

2025-10-21.

蒲慕明:未来5年,类脑研究搭AI快车迎科技突破窗口

上海市“十五五”规划编制工作已全面启动,通过“百家访谈、万家调研”活动广泛吸纳社会各界建议。解放日报联合上海市发展改革委,对战略科学家和决策咨询专家展开深度访谈,其中中国科学院脑科学与智能技术卓越创

2025-10-21.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
末日生存日记手游
末日生存日记手游 角色扮演 2025-10-21更新
查看
重装机兵2重制
重装机兵2重制 飞行射击 2025-10-21更新
查看
艾诺迪亚3
艾诺迪亚3 角色扮演 2025-10-21更新
查看
神回避3汉化
神回避3汉化 休闲益智 2025-10-21更新
查看
不朽之守护
不朽之守护 棋牌策略 2025-10-21更新
查看
仙剑奇侠传五续传
仙剑奇侠传五续传 棋牌策略 2025-10-21更新
查看
开心水族箱
开心水族箱 休闲益智 2025-10-21更新
查看
少年的肉鸽漂流
少年的肉鸽漂流 角色扮演 2025-10-21更新
查看
十洲繁华景
十洲繁华景 角色扮演 2025-10-21更新
查看
王者之战BT
王者之战BT 角色扮演 2025-10-21更新
查看