龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题
你是否遇到过这种情况:让AI助手帮你完成一个稍复杂的网页操作,比如预订一张特定条件的机票,或者填写一份多步骤的在线表格,结果它要么点错按钮,要么在页面间迷失方向,最后只能尴尬地告诉你“任务失败”?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这正是当前许多网页智能体(Web Agent)面临的真实困境。不过,最近来自伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队,带来了一套名为A venir-Web的新方案,目标就是让现有的多模态大模型,能真正像人类一样流畅、可靠地使用网页。

问题到底出在哪?简单来说,现有的Web Agent在面对复杂的网页结构时,常常表现得像个“新手”。它们会被那些嵌套的iframe、Canvas画布或者Shadow DOM搞得晕头转向,导致“定位不准”;在执行多步骤的长程任务时,又因为缺乏对特定网站操作流程的常识,只能“盲目探索”,效率低下;更头疼的是,它们还容易“走着走着就忘了”自己到底要干什么,陷入重复错误的循环。
A venir-Web的巧妙之处在于,它本身不是一个需要从头训练的新模型,而是一套开源的、即插即用的智能体框架(Agent Harness)。在严苛的ONLINE-MIND2WEB基准测试中,它取得了53.7%的成功率,刷新了开源领域的纪录。这意味着,开发者可以轻松地将现有的大模型“装入”这个框架,立刻获得更强的网页操作能力。

Web Agent 的三大难题
研究团队精准地指出了当前Web Agent落地应用的三个核心瓶颈:
元素定位不准(Inaccurate Grounding):过度依赖网页的DOM树结构,一旦遇到非标准元素(如 Canvas、嵌套 iframe)就容易失效,找不到该点的按钮。
缺乏特定站点的流程知识(Site-specific Procedural Knowledge):Agent不懂得像人类一样,先去查查“用户手册”或“攻略”,只能靠试错乱撞,成功率自然不高。
长程任务跟踪与记忆力不稳定(Unstable Memory):在跨页面操作时,容易产生“导航漂移”,忘了核心目标,甚至陷入重复错误的死循环。
针对这些痛点,A venir-Web提出了一套模块化的解决方案。由于它本身是一个框架而非模型,因此天然具备“无需训练”(training-free)的部署优势,降低了使用门槛。
A venir-Web 的 Agent Harness 核心设计

经验模仿规划(Experience-Imitation Planning, EIP)
想想我们自己在操作一个不熟悉的复杂网站时,第一反应是什么?没错,通常是先搜索一下教程或攻略。A venir-Web的EIP模块正是模仿了这一人类行为。
在任务开始前,它会利用大模型自身的在线搜索能力,主动去检索目标网站的帮助中心、用户论坛或相关指南,并将这些信息转化为一个高层次的策略路线图。这种“先读攻略再上手”的方法,极大地减少了智能体的盲目探索时间,也有效规避了那些可能导致任务失败的、不可逆的导航操作。

混合定位专家(Mixture of Grounding Experts, MoGE)
为了解决定位难题,MoGE模块采用了“视觉优先”的原则。它不再纠结于复杂的DOM树解析,而是将整个网页渲染画面视为一张统一的视觉画布,直接基于屏幕坐标进行交互。这种方式,天然地化解了让传统DOM解析派智能体头疼的嵌套iframe等问题。
当然,如果视觉信息模糊或不足怎么办?MoGE还准备了后手:它会触发语义结构推理作为兜底方案。这种“视觉坐标为主,语义理解为辅”的混合策略,让智能体在面对各种千奇百怪的UI设计时,都具备了更强的适应性和鲁棒性。

任务跟踪清单(Task-Tracking Checklist)
为了防止智能体在执行长任务时“跑偏”,研究团队引入了结构化的任务清单机制。它将一个复杂的用户指令,分解为2到6个清晰、可验证的“原子里程碑”。每完成一步操作,系统就会利用一个轻量级模型(如Qwen-3-VL-8B)来实时更新任务状态(待处理、进行中、已完成、已失败)。这就好比给智能体配了一个随时检查进度的项目看板,确保它始终走在正确的轨道上。

自适应记忆(Adaptive Memory)
长上下文带来的“幻觉”和遗忘问题如何解决?A venir-Web采用了分块递归摘要机制。它维持一个固定大小的滑动窗口,将过去的操作历史不断提炼、压缩成抽象的记忆状态。更关键的是,它还专门设置了一个“失败反思缓冲区”,确保智能体能够从过去的错误中真正吸取教训,避免在同一个地方反复跌倒。

实验结果
理论设计得再好,实战表现才是硬道理。研究团队在ONLINE-MIND2WEB这个包含136个真实网站、300个实时任务的严苛基准上进行了测试。
结果令人印象深刻:以Gemini 3 Pro为核心驱动的A venir-Web,取得了53.7%的成功率。相比之前的开源标杆SeeAct(30.0%),这个提升幅度达到了23.7个百分点,堪称飞跃。

不仅如此,它的表现甚至超越了Claude Computer Use 3.7(47.3%)和ACT-1(52.7%)等闭源商业产品,开始逼近OpenAI Operator(58.3%)这类顶级选手的水平。
更值得关注的是其轻量化潜力。即使完全使用开源且轻量的Qwen-3-VL-8B作为内核,A venir-Web依然取得了25.7%的成功率,这个成绩已经与早期基于GPT-4o等重型模型打造的Agent(如Browser Use的26.0%)不相上下。这充分说明,作为一套即插即用的框架,A venir-Web在资源受限的场景下,同样具备可观的实用价值。
消融实验:谁才是关键?
为了验证各个模块的贡献,研究人员进行了系统的消融实验。结果一目了然:
当去除EIP(经验模仿规划)模块后,成功率从48.0%骤降至36.0%,暴跌12个百分点。这强有力地证明了,引入外部知识(如网站攻略)对于完成复杂网页任务具有决定性的意义。
当去除MoGE(混合定位专家)模块后,成功率会从48.0%降至40.0%;而去除自适应记忆模块后,成功率则会进一步降至42.0%甚至36.0%。这说明,精准的定位和稳定的记忆,两者缺一不可,都是保障智能体可靠运行的基础。特别是在长程任务中,递归摘要机制有效避免了因上下文过长而导致的决策混乱。

可以说,A venir-Web为构建具备人类级可靠性的通用数字助理,迈出了坚实的一步。目前,该项目代码已在GitHub上开源。这意味着,开发者无需投入巨资训练新模型,就可以直接利用这套框架,在自动化流程、软件测试乃至下一代智能助手等场景中进行探索和应用。
论文链接:https://arxiv.org/abs/2602.02468
代码链接:https://github.com/Princeton-AI2-Lab/A venir-Web
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
传统智驾遇瓶颈:规则局限难突破,端到端大模型成车企新赛道焦点
智能驾驶技术正以惊人的速度重塑汽车行业格局 从实验室里的前沿概念,到如今量产车上越来越常见的功能,智能驾驶这条赛道,已经彻底从图纸跑进了现实,成了各家车企寸土必争的核心战场。就在普通消费者还在纠结“辅助驾驶到底靠不靠谱”的时候,行业内部早已暗流涌动,掀起了一场静悄悄的技术革命——端到端大模型,正以一
硬核技术赋能出行新体验 吉利中国星i-HEV智擎混动双车引领混动新风潮
吉利中国星i-HEV智擎混动系列双车上市,燃油车正式迈入“2升”时代 就在杭州,吉利中国星i-HEV智擎混动系列的两款重磅车型——星瑞i-HEV与星越L i-HEV正式登陆市场。这不仅仅是一次新车发布,更是一个明确的信号:中国燃油车的“2升”油耗时代,已经由我们自己的技术拉开了序幕。星瑞i-HEV限
Qlient- 美容院和水疗中心的人工智能接待员
什么是Qlient AI? 在美容和水疗行业,前台电话接待是个技术活,更是门艺术。客人的每一通来电,都可能直接转化为一次预约。那么,有没有一种方案,既能确保不错过任何商机,又能让对话体验足够专业和自然?这正是Qlient AI想要解决的问题。 简单来说,Qlient是一款专为美容院和水疗中心量身打造
PayGenie- 基于人工智能的发票工具
在繁复的企业运营中,发票处理常被视为一项耗时却不可或缺的“必要之恶”。有没有一种方式,能将它从繁琐的行政工作中解脱出来,甚至转化为洞察财务健康的利器?这正是我们今天要探讨的工具所试图解答的问题。 什么是EliteInvoice? 简单来说,EliteInvoice是一款旨在彻底改变发票工作流的智能工
Sawal AI- 基于人工智能的语音助手
什么是Sawal AI? 有没有想过,如果能有个助理替你处理所有繁琐的预约安排,会是什么感觉?Sawal AI做的就是这件事。它本质上是一个智能语音助手,核心目标就是用人工智能的力量,把预约预定这件事变得无比简单。说白了,它通过自动化整个调度流程,不仅帮企业减少了爽约率,更重要的是,大幅提升了客户从
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

