UIUC与微软联合推出网页智能体边干边学训练新范式
先说一个核心判断:当全球科技巨头还在将网页AI智能体当作“黑箱宠物”来训练时,一群来自学界和工业界的同行联手做了一件大胆的事——让AI在真实的互联网环境中“自学成才”,并且取得了令人瞩目的成果。
这项研究来自美国伊利诺伊大学厄巴纳-香槟分校(UIUC)和微软研究院,于今年6月发表在预印本平台arXiv上,论文编号为arXiv:2606.02031。对此方向感兴趣的朋友可以直接通过该编号查阅原文,深入了解AI智能体的最新突破。
一场关于“会用浏览器的AI”的竞赛
每天,全球有数十亿人打开浏览器,在网页上搜索商品、填写表单、比较价格、查阅信息。这些操作对人类来说轻而易举,但对AI来说,却是一座难以翻越的高山。网页是动态的、混乱的,充满了弹窗和验证码,而且每隔一段时间就会改版——这对需要“看懂网页、精准点击、完成任务”的AI智能体来说,简直是噩梦般的训练场。
目前,最先进的网页AI智能体基本都掌握在OpenAI、Google等科技巨头手中,属于不对外公开训练细节的“黑箱系统”。开源社区虽然也在努力,但普遍依赖一种叫做“监督学习”的方式——即先收集大量人类操作网页的示范录像,再让AI进行模仿。这种方式有一个致命短板:录像拍摄既昂贵又耗时,且从录制完成的那一刻起就开始“过时”,根本无法跟上互联网日新月异的变化节奏。
正是在这样的背景下,UIUC与微软的研究团队决定另辟蹊径。他们的核心思路是:与其让AI死记硬背人类的操作示范,不如让AI直接在真实网站上“自己去尝试”,从成功与失败中学习。这个方向被称为“在线强化学习”,对于视觉化的网页智能体来说,此前几乎是一片空白地带。
研究团队将这套完整的训练框架命名为OpenWebRL,并在此基础上训练出了一个拥有40亿参数规模的模型——OpenWebRL-4B。该模型仅凭400条初始示范轨迹和2200个在线训练任务,就在三个顶级网页智能体测评基准上刷新了开源模型的最高分,部分指标甚至超越了OpenAI与Google的商业系统。
一、为什么“自己去试”比“死记硬背”更难?
在正式介绍这套方法之前,有必要先理解为什么让AI在真实网页上“边干边学”是一件极其困难的事。
一个人学骑自行车,会从摔倒中体会到平衡的重要性,并在下次调整姿势。这个反馈是即时且清晰的。但让AI在网页上学习完成任务,面临的反馈环境要复杂得多。网页是动态的——今天还能正常显示的按钮,明天可能被移走;今天能跑通的登录流程,明天可能多了一道验证码;某些网站还会将频繁的自动化操作识别为“机器人”并直接封锁访问。这些都是“环境噪声”,很容易让AI误判为自己做错了,从而学偏。
更棘手的问题在于:网页任务的“成功与否”往往要等到整个任务完成后才能判断。你无法在AI点击第三个按钮时告诉它“这一步做得对”,只能在它最终回答出“这款鞋的最低价格是299元”后,才能评判整个过程是否正确。这种“事后才知道结果”的反馈机制,对训练算法的设计提出了很高的要求。
与此同时,视觉信息的处理代价极高。每一步操作,AI都需要“看”一张网页截图——这张截图可能包含数百个元素,消耗大量计算资源。如果每一步的历史截图都保留在AI的“记忆”中,一个30步的任务轨迹甚至会超出大多数模型的上下文承载上限。
研究团队在论文中系统性地梳理了这些挑战,并为每一个挑战设计了具体的解决方案,这些方案共同构成了OpenWebRL框架的核心。
二、搭建一个“真实网页训练场”
OpenWebRL的第一块基石,是一套能在真实网站上稳定运行的浏览器环境基础设施。
你可以把这套系统理解为给AI搭建了一个“沙盒游乐场”——每个训练任务都在独立的虚拟浏览器窗口中运行,互不干扰,就像每位学员都有自己专属的训练跑道,不会因为别人的失误而影响自己。这套基础设施基于Playwright和Chromium构建,运行在Kubernetes容器化环境中,支持上百个浏览器实例同时并行运作。
但真实网页的麻烦在于,即便环境搭好了,各种意外随时可能发生:某个网站加载太慢、某次网络请求超时、某页面突然弹出验证码、某个按钮因反自动化机制而拒绝被点击。为此,研究团队设计了完善的“容错机制”——系统会自动区分“是AI做错了”还是“网站出问题了”,并将失败原因详细记录下来,以便后续分析。对于那些反复出现网络故障的网站,系统还会自动将其列入黑名单,避免训练资源浪费在根本无法访问的地址上。
三、让AI“看见”自己的每一步操作结果
仅靠截图,AI很难知道自己的操作是否真的生效了。点击一个按钮后,页面可能看起来没什么变化,但实际上可能已经悄悄导航到了新页面,或者填写的内容根本没被接受。
OpenWebRL解决这个问题的方式是:给每一次操作都附上一条“文字反馈”,相当于给AI配备了一个实时助理,在它每次操作后耳语提示:“刚才你点击的那个按钮成功了,页面跳转到了xxx”,或者“你输入的文字与实际接受的内容不一致,请注意观察”。这条文字反馈是通过分析操作前后的网页DOM树(网页结构树)变化来生成的,内容简洁但信息密度高。
这条反馈的重要性在后续实验中得到了明确验证——去掉这个文字反馈,AI在多个基准测试上的成功率会下降5到8个百分点。尤其是在需要多步操作的长程任务中,少了这个反馈,AI就像在黑暗中摸索,很容易在一个已经失败的操作上反复纠缠,或者没意识到某个关键步骤已经出错。
四、给AI的“操作工具箱”和“多任务并行”能力
OpenWebRL为AI配备了一套由13个基础操作工具组成的工具箱,涵盖鼠标点击(单击、双击、右键)、键盘输入、页面滚动、网址跳转、前进后退、标签页管理,以及最重要的“完成并报告”操作——这是AI告诉系统“任务做完了,我的答案是xxx”的唯一方式。
更有趣的是,AI每次不需要只调用一个工具。研究团队允许AI在一次“思考-行动”周期中连续调用多个工具。比如,AI可以在一次输出中同时完成“点击搜索框、输入关键词、按回车”这三个连续动作,而不需要经历三次“截图→思考→操作→等待截图”的完整循环。这个设计大大提高了训练效率,减少了不必要的模型与环境之间的来回交互。
五、解决“记忆过载”的聪明妙招
一个30步的网页操作任务,如果把每一步的截图都保留在AI的记忆中,数据量之大足以撑爆大多数模型的上下文限制。研究团队的解决方案既简洁又高效:只保留最近一张截图,但完整保留历史文字信息。
道理其实很朴素:人在做复杂任务时,不需要同时盯着之前每一步的操作界面,只需要记住之前做了什么、结果怎样,以及当前屏幕上看到的内容即可。AI也是如此。历史截图被丢弃,但每一步的操作记录、环境反馈和AI自己的“思考过程”都完整保留,作为文字形式的“工作记忆”。
实验结果表明,只保留最近一张截图(K=1)与保留最近两张相比,效果几乎没有差异,但计算成本却显著降低——保留两张截图会让训练时长从约240 GPU小时增加到400 GPU小时。这个发现告诉我们,在多模态智能体的长程任务中,语言记忆的价值往往比视觉历史更为关键。
六、“家教”先打好基础,再放手自学
OpenWebRL的训练分为两个阶段,这两个阶段的设计思路,很像人类学习新技能的经典路径:先跟着老师学基本功,再独立上场实战提升。
第一阶段是“监督微调”,也就是让AI先模仿高手操作。研究团队使用Qwen3-VL-235B(一个拥有2350亿参数的超大模型,可以理解为行业顶尖水平的“老师”)来完成一批网页任务,筛选出成功的轨迹,然后从中精心挑选412条最具代表性的轨迹,让4B的小模型来模仿学习。
之所以只选412条而不是用几十万条,是有深思熟虑的理由的。研究团队发现,如果喂太多示范数据,小模型会把老师的操作风格学得过于死板,反而在后续的实战训练中缺乏“可塑性”,难以被进一步调整优化。就像一个从小被逼着照本宣科的学生,反而不如那个只学了基本原则、但保留了自主探索能力的学生进步更快。
实验中,研究团队对比了四种不同的初始化方式:完全不做监督训练、少量训练1轮、适量训练3轮,以及大量数据训练3轮。结果发现,适量的监督预热(412条数据、3轮训练)带来的后续强化学习效果最好,而大量数据预热反而会拖累最终表现。这个结论有重要的实践指导意义:初始化的目的是“让AI能开始探索”,而不是“把AI调教成一个完美的模仿者”。
七、“在试错中成长”的强化学习核心算法
第二阶段是OpenWebRL真正的核心:让4B模型在真实网站上自己做任务,根据最终的成功或失败来更新自己的“决策策略”。
这套训练算法的名字叫做MM-GRPO(多模态多轮群体相对策略优化),但不用被这个名称吓到。它的基本逻辑其实非常直观。
每次训练,系统会给AI同一个任务,让它独立尝试5次(一组),生成5条不同的操作轨迹。有些轨迹成功完成了任务,有些则失败了。系统随后计算这5次尝试的平均成功率,然后告诉AI:比平均水平高的那些轨迹,应该更多去模仿;比平均水平低的那些轨迹,应该避免重蹈覆辙。这种“组内相对比较”的方式,让系统不需要一个外部的“完美标准答案”,只需要自己内部的成败对比就能持续进步。
有一个细节非常值得关注:如果某个任务的5次尝试结果完全一样(比如全部成功或全部失败),这组数据会被直接丢弃,不参与训练更新。道理很简单——全部成功意味着这个任务太简单,AI已经掌握了;全部失败意味着这个任务当前太难,暂时无法从中学到有效信号。只有那些“有时成功、有时失败”的任务,才能提供最有价值的学习素材。这相当于为AI自动构建了一个难度适中的动态课程。
训练采用了“两阶段滚动步长”的策略:先用最多15步的短程任务训练90轮,让模型在较短的任务中建立基础探索能力,再切换到最多30步的长程任务再训练50轮,让模型学会应对真正的长程规划挑战。实验表明,这种由短到长的课程式训练,比一开始就直接上30步任务的效果要好得多,尤其在WebVoyager这个需要较多步骤的基准上,差距高达7.4个百分点。
八、谁来当“评判官”?从昂贵到平价的进化
网页任务完成之后,如何判断AI的答案是否正确?这是整个系统中最难标准化的一环。
一些任务可以用规则判断,比如“找到这款手机的最低价格”,只要核对数字即可。但很多任务的评判需要理解语义,比如“找到一家评分最高且离我最近的五星级牙医”,答案可能因网页状态不同而有合理差异,不是简单对比字符串就能判断对错的。
研究团队的默认方案是用GPT-4.1作为“评判官”,但这会产生显著的费用:一次完整的训练实验需要调用约4.32万次GPT-4.1评判API,总费用约545.5美元。对于许多学术研究组来说,这是不小的负担。
为了解决这个问题,研究团队专门从1.25万条带有GPT-4.1评判标签的真实轨迹数据中,蒸馏训练出了一个8B规模的开源评判模型OpenWebRL-Judge-8B。实验证明,这个评判模型与GPT-4.1的判断吻合度高达89.8%,综合F1分数达到92.1%,超越了WebJudge-7B、Qwen3-VL-32B甚至GPT-4o等竞争者。用这个本地评判模型替换GPT-4.1之后,最终模型的性能几乎没有损失,平均成功率从68.4%仅微降到68.3%——几乎可以忽略不计。
研究团队还对比了直接用Qwen3-VL-8B(未经专门训练的通用模型)作为评判官的效果,结果令人警惕:训练奖励分数看起来越来越高,但实际测试成功率却在持续下滑——这是典型的“奖励欺骗”现象,AI学会了如何让评判官满意,而不是真正完成任务。这进一步说明,专门训练的评判模型对于整个训练系统的稳定性至关重要。
九、成绩单:小模型打败大系统
OpenWebRL的最终成绩相当亮眼。研究团队在三个顶级网页智能体基准上进行了全面评测。
WebVoyager是一个覆盖15个主流网站的综合型基准,共595个任务;Online-Mind2Web则包含136个网站的300个长程任务,难度更高;DeepShop专注于电商购物场景,要求AI在多重约束下完成商品搜索与选择,共150个任务。
OpenWebRL-4B在这三个基准上分别取得了74.1%、67.0%和64.0%的成功率,平均成功率68.4%,成为同等规模开源模型中的最高水平。横向对比来看,它不仅大幅超越了FARA-7B(后者在Online-Mind2Web和DeepShop上分别只有34.1%和26.2%)、MolmoWeb-8B(35.3%和42.3%),甚至超越了拥有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是,OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了商业系统OpenAI CUA(58.3%和24.7%)和GPT-5的SoM版本(57.7%和49.1%)。
扩展到8B参数规模的OpenWebRL-8B表现更加稳健,平均成功率达到68.7%,与商业系统Gemini CUA(57.3%和62.0%)在两个基准上的对比中展现出明显优势。
这些成绩的获得,仅使用了412条初始示范轨迹和2200个强化学习训练任务,而竞争对手如MolmoWeb则使用了超过27.85万条数据——相差了整整两个数量级。这表明,高质量的在线交互训练所带来的提升,完全可以弥补初始数据量上的巨大差距。
十、AI在训练中到底学会了什么?
研究团队没有满足于发布成绩单,而是进一步分析了训练过程中AI行为的变化,试图理解强化学习究竟改变了什么。
一个有趣的发现是:随着训练的推进,AI每一步的输出确实变长了,但总体任务完成所需的步骤数却在减少——平均步数从第0轮的14步下降到了第80轮的8.9步,整个轨迹的总长度也相应缩短。这说明AI并不是在无效地“啰嗦”,而是在更少的步骤内做更充分的思考。
研究团队对AI的思考内容进行了深入分析,定义了四种常见的“思维模式”:历史总结(回顾之前做过什么、去过哪些页面、什么方法失败了)、障碍诊断(发现验证码、页面封锁等拦截)、重试规划(制定新的替代策略)和条件验证(逐一核查任务要求是否满足)。
训练前后,这四种模式的出现频率都有显著提升:历史总结的出现率从14.5%提升到21.4%,障碍诊断从14.2%提升到23.7%。而且,出现这些思维模式的步骤,其响应长度增长更为显著,从平均332 token增加到542 token(历史总结),从273增加到440(障碍诊断);相比之下,不包含这些模式的普通步骤,长度增长非常有限(从282增加到325)。
这说明AI学会了“有选择地深度思考”:在关键决策节点上投入更多认知资源,而不是均匀地在每一步上平摊思考量。这种行为模式与人类专家的认知方式高度吻合——遇到卡点时深度分析,熟悉操作时快速执行。
归根结底,这套方法改变了什么?
说到底,OpenWebRL证明了一件在AI研究领域颇具争议的事:对于网页智能体这类需要在复杂、动态环境中做长程决策的任务,“让AI在真实世界里边做边学”不仅是可行的,而且比“堆砌大量人类示范数据”要高效得多。
这对普通用户意味着,未来我们可能会看到更多能真正理解网页、完成复杂在线任务的AI助手,而这些AI不再需要依赖科技巨头掌握的海量私有数据,而是可以通过开放的框架和有限的初始训练,在公开的互联网上持续自我提升。
从研究本身的局限性来看,有51%的失败案例源于网页本身的访问问题——验证码封锁、网络连接失败、反自动化机制等——这些都不是模型能力的问题,而是开放互联网上AI智能体必须面对的基础设施挑战。另外27%的失败来自模型在长程多约束任务中的规划和跟踪能力不足,13%来自视觉定位的精度问题。这些方向,也正是接下来研究努力的重心所在。
研究团队已宣布将公开发布训练数据、模型权重和完整代码,让学术界和独立研究者都能在此基础上继续探索。对视觉AI、智能体技术或强化学习感兴趣的读者,可以通过arXiv编号2606.02031找到这篇完整论文,或者访问项目主页openwebrl.github.io获取更多资源。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
理想新车布局预测:L9L与i9上半年发布
1月23日消息,综合权威公开信息与行业趋势研判,理想汽车2026年度新车布局规划正式曝光。此番产品线布局,不仅持续深耕SUV市场,同时加速补齐全场景覆盖的拼图。 理想L9旗舰SUV 在增程动力领域,理想L系列将迎来一位新成员——L9L,预计2026年上半年正式上市,预估售价区间为45万至55万元。与
三星消息应用7月停用 部分旧设备可继续使用
6月29日,多家海外媒体援引三星官方消息证实,三星消息(Samsung Messages)应用将于2026年7月正式终止服务。随着这个截止日期越来越近,依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里,三星一直在悄悄引导用户转向谷歌信息(Google Messages
吉利发布2030战略:年销650万辆全面迈向全球前五
1月22日,吉利控股集团在北京召开战略解析大会,正式发布“一个吉利,全面领先”的2030战略蓝图。战略目标清晰明确:到2030年,全球总销量(含乘用车与商用车)突破650万辆,稳居全球车企前五。其中,新能源车型占比预计达到75%左右,海外销量占比超过三分之一。尤为关键的是,依托全新全球化架构,单车型
OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部
OPPO Find X9 Ultra 旗舰机型 回顾产品发布背景:Find X9系列于2025年10月正式登场,作为OPPO年度旗舰产品线,涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来,凭借芯片算力、屏幕显示素质、续航表现以及影
IntelliJ IDEA 2025.3.2 版本正式发布
IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善,本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令,或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具(例如 Claude Code
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

