智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕
智谱开源全新智能体基座:CogAgent-9B 让AI真正“看懂”屏幕
昨天(12月26日),智谱技术团队在其公众号上扔出了一条重磅消息:他们开源了GLM-PC的基座模型——CogAgent-9B-20241220。这个模型基于GLM-4V-9B训练,专攻一件事:成为执行智能体任务的专家。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
先划个重点:这个模型有多特别?它只需要一张屏幕截图,就能开始工作。用户下达任意任务指令,它就能结合之前的操作历史,精准预测下一步应该在图形用户界面(GUI)上做什么。什么HTML源码、文本表征,统统不需要,真正实现了“所见即所得”。
这种仅依赖截图和普适性GUI操作的能力,一下子就把应用场景打开了。从你面前的个人电脑、手机,到未来的智能汽车中控,凡是带屏幕、能交互的设备,它都有用武之地。

话说回来,这可不是智谱第一次推出CogAgent。比起去年12月的初代版本,这次的CogAgent-9B-20241220可以说是全方位的升级。它在GUI感知能力、推理预测的准确性、动作指令的完善度,以及任务泛化性上,都有肉眼可见的显著提升。而且,现在它完美支持中英文双语的屏幕截图和交互,适用性更广了。
那么,它的工作原理到底是怎样的?模型的输入非常简洁,只有三样东西:用户的自然语言指令、已经执行过的动作记录,以及当下的GUI截图。输出则要丰富和精细得多,主要涵盖四个方面:
- 思考过程(Status & Plan):这是CogAgent的“思维可见化”。它会明确输出自己是如何理解当前屏幕状态,以及如何规划下一步的,包含状态分析和行动计划两部分。有趣的是,这部分输出的详细程度还可以通过参数来调节。
- 下一步动作的自然语言描述(Action):模型会用人类能看懂的自然语言,描述它打算做什么。这个描述会被加入到历史记录里,帮助模型建立起连贯的任务执行记忆。
- 下一步动作的结构化描述(Grounded Operation):这才是给机器“执行”的指令。CogAgent会用类似函数调用的结构化格式,明确指出操作类型和参数,方便应用程序解析并执行。它的动作库很全面,既包括点击、输入这类基础GUI操作,也涵盖了启动应用、调用大模型这类更高级的“拟人行为”。
- 下一步动作的敏感性判断:这相当于一个安全阀。模型会将动作分为“一般操作”和“敏感操作”。对于像在发邮件任务中点击“发送”按钮这种可能产生不可逆后果的操作,它会特别标注出来,提醒系统需要格外谨慎。
模型好不好,最终还得看实测表现。CogAgent-9B-20241220在Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等多个专业数据集上接受了严格测试,对手也都是GPT-4o、Claude-3.5-Sonnet、Qwen2-VL等行业内的一流模型。

测试结果颇具说服力:CogAgent在多个关键数据集上都取得了领先的成绩。这无疑证明了,在让AI智能体“看懂”并“操作”屏幕这个新兴且关键的赛道上,它已经具备了相当强大的竞争力。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Parity (YC S24)- Kubernetes事件响应的AI SRE
什么是Parity? 在全球复杂的云原生环境中,值班工程师的清晨被警报叫醒,早已是家常便饭。但今天,情况或许有所不同。工程师的第一道防线,可能不再是匆匆打开笔记本电脑。这个角色,现在可以由Parity来承担——它是业界首个真正意义上的AI站点可靠性工程师(SRE)。简单说,Parity被设计成Kub
阿里通义千问发布 Qwen2.5-Turbo AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
阿里通义千问发布 Qwen2 5-Turbo AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒 11月19日传来消息,就在前一天,阿里通义千问正式揭晓了其最新的开源成果——Qwen2 5-Turbo模型。这个版本的推出,其实是直接回应了社区里持续高涨的呼声:大家需要更长的
OpenAI 早有“造芯梦”:曾考虑收购晶圆级芯片企业 Cerebras
OpenAI 早有“造芯梦”:曾考虑收购晶圆级芯片企业 Cerebras 最近,从马斯克与 OpenAI 那场备受关注的法律诉讼中,一些新披露的证据文件让人窥见了更多内幕。其中一条信息格外引人遐想:这家如今叱咤风云的 AI 模型巨头,原来早在 2017 年前后,就已经开始认真盘算进军 AI 芯片业务
初创公司 Friend 预热人工智能吊坠硬件,上线对话平台可先行与 AI 聊天
初创公司Friend预热AI吊坠硬件,上线对话平台供用户尝鲜 最近,初创公司Friend动作频频,预热了一款颇有意思的硬件产品——Friend AI吊坠。这款设备设计得相当轻巧,可以直接挂在用户的脖子上。它的核心功能,是通过内置的麦克风和扬声器实现与用户的实时对话。不过,目前官方还未透露这款吊坠的具
GetFloorPlan:AI平面图生成工具,专为房地产专业人士、室内设计师及需求者打造
说到用AI搞定室内设计,现在有个工具确实把门槛降了下来。Getfloorplan,一个由人工智能驱动的3D室内设计平台,核心就是为用户提供高度个性化的家居装修方案。它的操作逻辑相当直接:你可以上传自家房间的照片,或者直接用他们提供的AR技术扫描房间。就这么简单几步,系统便能为你量身定制设计方案。更具
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

