智谱GLM-4V开源发布:不仅能看懂,更学会了“动手”
时间来到2025年,单纯比拼OCR准确率或识图能力的时代已经成为过去。GLM-4.6V的出现,标志着多模态模型开始向“行动派”转型。对开发者而言,现在最大的问题不再是“模型能不能看懂这张图”,而是“既然它能看懂也能操作,我们能用它创造出什么样的新物种?”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
2025年12月8日,智谱AI没有预告,直接甩出了一张王牌:GLM-4.6V系列多模态大模型正式上线并全部开源。
如果你还在关注那些只会“看图说话”的模型,那这次你可能要刷新一下认知了。智谱这次的更新,不是简单的参数堆叠,而是试图解决多模态领域一个最尴尬的痛点——大模型不仅要有眼睛,还得有手。

从“解说员”进化为“操作员”
过去我们用视觉大模型,流程通常是这样的:扔一张图给模型,问它“这是什么”,模型回答“这是一个网页报错”。然后呢?然后就没有然后了。你得自己去写代码修复。
GLM-4.6V的核心突破在于“原生多模态工具调用”。这是什么概念?意味着图像、视频不再仅仅是需要被“翻译”成文字的累赘,它们直接成为了函数调用的参数。
模型可以直接读取你的屏幕截图,理解UI布局,然后调用工具去点击、输入,甚至直接生成前端代码并进行视觉修正。它不再是一个站在旁边指指点点的解说员,而是一个能真正下场干活的操作员。对于想做多模态Agent(智能体)的开发者来说,这简直是梦寐以求的基础设施。

两款模型,丰俭由人
这次智谱的刀法依旧精准,推出了两款定位截然不同的模型。
GLM-4.6V (106B):这是给追求极致性能的玩家准备的。虽然参数量高达106B,但激活参数控制在12B(MoE架构),在云端高性能集群上,它能处理复杂的长文档和深度推理任务。根据最新数据,它的表现直接对标行业顶尖闭源模型。
GLM-4.6V-Flash (9B):这是给务实派准备的惊喜。9B的体积意味着它可以轻松部署在本地,甚至是一些端侧设备上。虽然是轻量版,但它在OCR、视频理解等高频场景下的表现并不含糊,甚至在这个尺寸下击败了Qwen3-VL-8B等竞品。
更重要的是,全系模型支持128K的超长上下文。什么概念?你可以一次性扔给它一本150页的技术文档,或者一段1小时的视频,它不仅能读完,还能在里面精准地找到你需要的细节。

价格屠夫与开源诚意
技术再好,用不起也是白搭。智谱这次显然是想快速抢占市场。
相比上一代GLM-4.5V,新版API的价格直接腰斩了50%。输入1元/百万tokens,输出3元/百万tokens。而那个可以在本地跑得飞起的Flash版本,智谱直接宣布:免费。
在开源策略上,智谱也没有藏着掖着。权重、推理代码、示例工程全部推上了GitHub和Hugging Face。MIT协议,允许商业使用。这意味着,明天你可能就会看到一大波基于GLM-4.6V的垂直应用如雨后春笋般冒出来。

写在最后
在2025年这个节点,单纯比拼OCR准确率或者识图能力的时代已经过去了。GLM-4.6V的出现,标志着多模态模型开始向“行动派”转型。
对于开发者而言,现在最大的问题不再是“模型能不能看懂这张图”,而是“既然它能看懂也能操作,我们能用它创造出什么样的新物种?”
大模型的下半场,拼的是落地,而GLM-4.6V,显然已经把梯子架好了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI 的记忆不是硬盘——从 40 个真实 Bug 说起
这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上
OpenClaw给每个Agent单独指定workspace
OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每
OpenClaw更新操作
前言 对于 OpenClaw 的忠实用户而言,每一次版本迭代都意义非凡。新功能密集、改动幅度大是它的显著特点,这固然令人欣喜,但伴随而来的更新操作也时常会遇到一些预料外的状况。本文旨在系统梳理我们在升级过程中遇到的常见问题与解决方案,帮助您在下次更新时更加顺畅,有效规避不必要的麻烦。 一、OpenC
openclaw源码
项目资源与开源社区 对于希望深入研究OpenClaw技术生态的开发者与研究者,以下几个核心的开源仓库提供了关键的切入点和持续更新的资源集合。 首先,OpenClaw项目的主仓库位于: https: github com openclaw openclaw 这里是所有核心代码、文档和官方进展的枢纽,
关停 Sora 后 OpenAI 转身收购 TBPN 播客,亲自下场做媒体
OpenAI关闭Sora后战略转向:收购TBPN播客,深度布局内容生态 四月初的科技界新闻不断,一则来自科技媒体9to5Mac的报道引发了行业的强烈关注。OpenAI在近期宣布正式收购知名科技商业播客品牌The Browser Pane。这一战略动作紧随其视频应用Sora的停止运营之后,被外界普遍视
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

