DeepMind AI首次解读第一人称视角开启视觉智能新纪元

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepMind AI首次解读第一人称视角开启视觉智能新纪元

热心网友时间：2026-05-14

转载

这项由Google DeepMind与北卡罗来纳大学教堂山分校合作的前沿研究，已于2026年3月25日正式发布，其完整论文可在arXiv预印本平台通过编号2603.22529v1查阅。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Google DeepMind首次让AI看懂第一视角，从眼睛到网页的智能革命

想象一下：一个AI助手能熟练地操作网页，却对你眼前真实世界的一切视而不见。例如，你透过AR眼镜看中一款包，却无法让它帮你找到并下单——这感觉就像雇了个只会读死书、却对现实一无所知的助理。这正是当前顶尖网页AI助手面临的尴尬处境：它们被“困”在屏幕里，只能基于截图或文字指令工作，与用户的视觉环境完全割裂。

为了打破这层壁垒，研究团队构建了一个名为“Ego2Web”的全新测试平台。它本质上是一座桥梁，旨在连接两个关键能力：理解第一人称视角视频，并据此执行网页任务。所谓第一人称视角，就是模拟人眼所见的画面。团队为此收集了500组精心配对的视频与任务，覆盖购物、地图、知识检索等多种真实生活场景。

更关键的是，他们同步开发了一套名为“Ego2WebJudge”的自动评估系统。这套系统如同一位严苛的考官，能精准判断AI是否真正看懂了视频，并在网页上正确完成了任务。其评估结果与人类专家判断的一致性高达84%，远超现有方法。

一、从生活场景到网页任务的完美融合

从超市货架拿起一包零食，随即想上网查它的营养成分——这对人类来说轻而易举，对AI却堪称巨大挑战。研究发现，现有AI助手如同“应试高手”，一旦任务需要结合现实观察与网络操作，便立刻捉襟见肘。

Ego2Web平台正是为此设立的“训练营”。其任务流程可拆解为两个核心环节：首先是视觉感知与定位，AI必须从第一人称视频中精准捕捉关键线索，比如物体的品牌、颜色等特征。其次是网页执行与推理，AI需基于视频信息，规划并执行一系列网页操作，如导航、搜索、点击等。

评估标准极为严格：只有最终网页状态与目标完全匹配，才被视为成功。这好比要求学生不仅理解题意，还必须给出分毫不差的答案。

这些任务被系统地分为五类：占比最高（50.3%）的是电子商务任务，要求AI识别视频物品并在购物网站找到同款；媒体检索任务（24.1%）则需根据视频活动，在YouTube等平台寻找相关教程；知识查询任务（17%）涉及识别品牌或地标后，于维基百科等平台查找信息；本地地图服务（6%）要求根据视频地点信息进行地图定位；其余（2.6%）为特殊应用场景。

二、智能数据生成：让机器学会观察世界

构建此类测试平台的核心挑战，在于如何高效生成高质量的视频-任务配对。研究团队设计了一套巧妙的半自动化流程。

流程始于一个精选的第一人称视频库，素材来自公开数据集，记录了家庭、商场、办公室等多样场景中的真实互动。每个视频都像一段生活切片。

随后，一个强大的多模态大语言模型会仔细分析每段5秒的视频片段，如同细心的观察员，记录全局场景与局部物体细节（例如：“人物在厨房打开冰箱，取出一瓶绿色包装的可乐”）。这些描述被整合成结构化的“视频档案”。

接着，另一个AI规划师会依据视频档案和预设的热门网站列表，构思可行的任务指令。它必须确保任务明确依赖视频视觉内容，且能在目标网站上执行。例如，针对拿起特定咖啡的视频，可能生成“在亚马逊找到同款咖啡并报告价格”的指令。

最后，人类专家会对每个AI生成的配对进行三重质量审核：视觉依赖性（任务是否必需视频信息？）、网页可行性（任务能否在网站上完成？）、指令质量（指令是否清晰无误？）。只有全部通过的样本才会入选。这套混合流程最终高效产出了500个高质量、多样化的测试样本。

三、革命性评估系统：让AI当自己的考官

传统网页AI评估如同只批改答卷，却不知考题。研究团队意识到，评估必须兼顾视频理解与网页操作。于是，Ego2WebJudge应运而生，这是一个能同时“看懂”视频与“理解”网页操作的智能评估系统。

它的工作流程分三步走：首先，从任务指令中提取关键评分点，明确成功标准。接着，从AI可能长达5-20步的操作历史中，筛选出最关键的网页截图，剔除无关的页面加载或错误界面，避免信息过载。最后，一个多模态评估模型会综合任务指令、关键截图、操作历史、评分要点以及视频关键帧，判断任务是否成功。该系统尤其强调“视觉一致性”，即网页结果必须与视频观察到的内容匹配。

其严格程度超乎寻常：不接受AI的文字声明、粗略匹配或缺乏视觉证据的结果，任何不确定性都会导致判定失败。实验证明，这套AI考官与人类专家的一致性达到84%，为大规模、可靠的自动化评估提供了解决方案。

四、现实检验：顶尖AI的表现如何

研究团队邀请了六位当前最先进的网页AI“选手”在Ego2Web平台上接受检验，包括SeeAct、结合GPT-4.1的Browser Use、Claude Computer-Use等。结果发人深省。

即便是表现最佳的Browser Use配合Gemini-3-Flash，在人类专家评估下的成功率也仅为58.6%，距离理想水平仍有约40%的差距。这揭示了一个事实：即便是最优秀的AI，在面对需要融合观察与执行的综合测试时，能力仍有明显短板。

表现差异的关键在于处理视觉输入的方式。能够直接处理原始视频的AI（如基于Gemini的系统），其表现显著优于仅能通过文字描述理解视频的系统。这好比亲临现场的目击者与听转述的旁观者之间的信息差距。

任务类型也极大影响难度：知识查询任务相对简单，平均成功率达50%；而本地地图服务（23.1%）和电子商务任务（21.7%）则挑战巨大，因其涉及动态界面与多步交互。

通过对50个失败案例的深入分析，问题被归结为几类：物体识别错误（36%）首当其冲；其次是时间和动作理解错误（18%）；跨模态检索失败（16%）指AI能识别物体却找不到网页信息；粗粒度匹配错误（12%）则是找到了语义相似但实际错误的结果；其余（18%）包括指令理解、规划效率及外部限制（如验证码）等问题。