首页
科技
上海AI实验室突破:用视频驱动让AI理解网页交互

上海AI实验室突破:用视频驱动让AI理解网页交互

热心网友
转载
2025-10-22
来源:https://www.itbear.com.cn/html/2025-10/994724.html

看似简单的网页交互——按钮点击跳转、表单提交反馈、鼠标悬停显示——这些我们习以为常的操作,却让当前最先进的AI模型陷入了困境。来自上海AI实验室与浙江大学、中国科学技术大学深圳分校等机构的研究团队,通过一项突破性研究揭示了AI在理解动态网页方面的根本局限性,相关成果已发表于arXiv平台(论文编号:2509.24709)。

传统AI训练方式如同让画家仅凭一张照片临摹整幅画作。研究者通常向模型展示网页静态截图,要求其生成对应代码,却忽略了点击、滚动等操作引发的动态变化。研究团队一针见血地指出:"这就像通过房屋照片设计建筑图纸,却不知道门如何开关、电路如何连接。"为此,他们创造性地提出让AI观看完整用户操作视频,通过观察交互过程理解网页运作逻辑。

基于这一理念,团队构建了名为IWR-Bench的评测体系。该基准包含113个真实任务场景,覆盖电商、教育、游戏等五大领域,按交互复杂度分为四级:从简单的页面滚动(L1)到完整的在线游戏开发(L4),按视觉复杂度分为极简布局(V1)到数据仪表盘(V4)。每个任务配备操作视频、静态资源及详细标注,为防止模型"作弊",所有资源文件均重命名为随机编号。

研究团队对28个主流AI模型展开全面测试,结果暴露出显著短板。表现最优的GPT-5仅获36.35分(满分100),其视觉还原度达64.25分,但功能性评分骤降至24.39分。这意味着模型能生成外观相似的网页,却无法实现按钮点击、表单提交等基础交互。开源模型表现更弱,多数得分低于20分,显示商业模型与开源方案存在代际差距。

测试揭示五大核心挑战:时序理解不足导致操作时序混乱;状态管理缺陷造成多步骤流程中断;动态资源匹配错误引发显示异常;代码生成缺陷导致功能缺失;长上下文处理能力有限造成信息丢失。例如在订票流程测试中,模型能显示页面但无法正确传递表单数据;在游戏测试环节,能渲染界面但无法实现计分逻辑。

研究团队开发的智能评测系统突破传统方法局限。该系统通过程序化交互测试验证功能完整性,模拟用户点击、输入等操作并检查预期反应;采用多层次视觉分析评估美观性,结合光学字符识别与深度学习特征提取;引入大型语言模型进行语义评估,从用户体验角度综合打分。这种立体化评测首次实现了功能与美观的双重量化。

技术分析显示,视频理解专用模型(如VideoLLaMA-7B)得分仅13.67分,反而低于通用多模态模型,证明单纯强化视频处理能力不足以解决交互理解问题。配备"思维链"功能的模型版本表现略优,但提升幅度有限,表明当前推理增强技术尚未触及问题本质。

这项研究为AI开发范式转型提供关键依据。研究指出,未来需构建专门处理时序交互的新型架构,整合分层时序建模与多模态对齐技术;开发渐进式训练方法,从简单交互逐步过渡到复杂系统;建立更大规模、更高质量的訓練数据集,扩展任务覆盖范围。自动化评测框架的建立,则为行业提供了标准化评估工具。

在应用层面,该技术成熟后将彻底改变软件开发模式。普通用户可通过操作演示直接生成网页应用,降低技术门槛;教育领域可借助动态学习过程提升教学效果;企业开发中,AI生成的初始代码框架可加速原型设计。这种变革类似于从专业摄影设备到智能手机的影像技术普及,将数字创造力赋予更广泛人群。

研究团队强调,当前技术距离实用化仍有较大差距,但已证明基于视频的交互理解是可行方向。通过建立三维分类评测体系、开发智能评估系统、识别关键技术瓶颈,这项研究为后续突破奠定了方法论基础。完整技术细节可查阅arXiv:2509.24709论文。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

雷鸟Air 4 AR眼镜首发评测:HDR+显示与1599元起售价解析

10月23日,雷鸟创新推出全新AR眼镜RayNeo Air 4,标准版售价1599元,国补后价格为1519 34元;Pro版售价1699元,国补后为1614 24元。新品已于当日在主流电商平台开启销

2025-10-24.

群晖DSM 7.3发布:AI办公升级、分层储存与硬盘自由配置

群晖今日正式推出DSM 7 3操作系统,带来多项功能升级与体验优化。本次更新重点包括全新引入的Synology Tiering分层存储技术、Drive 4 0的共享标签与文件锁定功能,以及融合AI能

2025-10-24.

蓝电E5 PLUS 11月预售:旗舰大七座SUV,升级家庭出行体验

10月23日,赛力斯旗下蓝电汽车宣布将推出第三代蓝电E5 PLUS车型,新车计划于11月启动预售。最新透露,该车型定位为家庭出行场景,重点强化户外露营功能,配备多项专属配置。第三代蓝电E5 PLUS

2025-10-24.

红米K90冠军版发布:联名兰博基尼,5499元旗舰登场

2025年10月23日,REDMI正式推出K90系列新品,包含K90与K90 Pro Max两款机型。同时发布的还有与兰博基尼汽车SQUADRA CORSE合作打造的K90 Pro Max冠军版。该

2025-10-24.

逃离鸭科夫更新指南:工具调整与体验升级详解 商城特惠43.94元起

即日起在民商城选购游戏逃离鸭科夫,使用游民金币叠加优惠券,标准版仅需43 94元,立省14 06元。此前,国产搜打撤类游戏逃离鸭科夫因将“排泄物”设为可食用的消耗道具而引发玩家热议,并传出销量突破百

2025-10-24.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
三国戏英杰传华为
三国戏英杰传华为 棋牌策略 2025-10-24更新
查看
锈湖旅馆
锈湖旅馆 动作冒险 2025-10-24更新
查看
原始征途腾讯
原始征途腾讯 角色扮演 2025-10-24更新
查看
涂鸦王国
涂鸦王国 角色扮演 2025-10-24更新
查看
时空召唤oppo
时空召唤oppo 角色扮演 2025-10-24更新
查看
花亦山心之月国际服
花亦山心之月国际服 休闲益智 2025-10-24更新
查看
逃跑吧少年先行服
逃跑吧少年先行服 休闲益智 2025-10-24更新
查看
会说话的汤姆猫2九游
会说话的汤姆猫2九游 休闲益智 2025-10-24更新
查看
芭比梦幻屋国际
芭比梦幻屋国际 角色扮演 2025-10-24更新
查看
三国戏英杰传手游
三国戏英杰传手游 棋牌策略 2025-10-24更新
查看