AAAI 2026 Oral:InfiGUI-G1模型刷新GUI Grounding SOTA
随着多模态大语言模型(MLLM)的飞速发展,能像人类一样通过视觉操作图形用户界面(GUI)的智能体正逐步走入现实。然而,在迈向通用计算机控制这一目标的道路上,如何让模型精准地将自然语言指令与屏幕上的具体元素对应起来——也就是GUI Grounding任务——依然是一大核心挑战。
现有的解决方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升“指得准”(空间对齐)方面表现出色,却常常在“指得对”(语义对齐)上遇到瓶颈。模型往往会陷入“自信陷阱”,在复杂的语义场景下难以通过有效探索找到正确的功能图标。
针对这一难题,来自浙江大学、香港理工大学及InfiX.ai的研究团队提出了一种全新的自适应探索策略优化框架(AEPO),并推出了InfiGUI-G1系列模型。该模型通过多答案生成与自适应奖励机制,有效打破了传统RLVR方法的探索局限。仅凭3B和7B的参数量,InfiGUI-G1就在多个高难度GUI基准测试中刷新了SOTA纪录,部分指标甚至大幅超越了闭源模型。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
奥迪与上汽深化合作 L3自动驾驶将首搭E7X车型
在备受瞩目的大众集团之夜活动上,奥迪全球CEO高德诺(Gernot Döllner)正式宣布了一项战略级规划:奥迪将在全新纯电车型E7X上,全球首搭L3级高阶自动驾驶系统。此举不仅是奥迪在智能驾驶领域的一次重磅技术落地,更标志着其正将深厚的豪华造车底蕴,与中国本土领先的智能科技力量深度融合,从而为豪
CodeBuddy如何实现Shell与Bash脚本的智能自动补全
许多开发者在借助 CodeBuddy 这类 AI 编程助手时,常会遇到一个具体困惑:为何我的 Shell 或 Bash 脚本无法获得预期的智能代码提示与自动补全?这通常并非工具本身的能力局限,而更多源于开发环境配置与交互方式的细节。要让 AI 助手真正理解并流畅地辅助你的命令行脚本编写,关键在于打通
防止HermesAgent误改文件:设置只读权限与沙箱隔离指南
HermesAgent可能因权限问题意外修改文件。为此可通过五层防护措施限制其行为:启用沙箱隔离文件系统;将关键路径挂载为只读;收紧访问路径白名单;扩展过滤函数拦截高危文件;为宿主目录设置系统级只读权限。这些方法共同构建立体防御,确保Agent仅在安全区内操作。
可灵AI短剧分镜头拼接效果实测与使用体验分享
可灵AI制作短剧分镜时,常出现动作不连贯、节奏断裂等问题,主要因缺乏统一的视觉锚点与时间协同。可通过分段生成后手动校准关键帧、使用多镜头调度模式自动生成序列、利用首尾帧控制补全动作过渡,或采用视频续写功能实现无缝延展等方法改善,从而提升AI分镜的流畅性与专业性。
飞书妙记与腾讯会议AI转写功能实测对比
在标准测试中,飞书妙记与腾讯会议AI转写准确率相近。飞书在混合语种时倾向保留英文原拼,支持方言选择;腾讯可能在混合语种切换时略有延迟,对无法处理的片段或跳过。两者对专业术语和上下文的理解均表现良好,具体差异需结合实际场景进一步评估。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

