数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

国产AI开源实测：截图转网页、搜图购物，价格减半

AI热点日报时间：2025-12-11

热点解读

智东西作者王涵编辑心缘智东西12月9日报道，昨晚，智谱开源了其GLM-4 6V系列多模态大模型，包括面向云端与高性能集群场景的基础版GLM-4 6V（106B-A12B）以及面向本地部署与低延迟

智东西
作者王涵
编辑心缘

智东西12月9日报道，昨晚，智谱开源了其GLM-4.6V系列多模态大模型，包括面向云端与高性能集群场景的基础版GLM-4.6V（106B-A12B）以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash（9B）。

此外，今天上午，智谱还开源了大模型交互智能体AutoGLM，类似于“豆包手机助手”，该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”。

▲GLM-4.6V开源主页（图源：Hugging Face）

▲AutoGLM开源主页（图源：Hugging Face）

据最新介绍，GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务，智东西第一时间对其进行了体验。

在实际体验中，GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定，其生成文字和网页的速度快、内容准。但图文混排能力上，其所生成的图片一直无法显示。对于模糊指令，GLM-4.6V的理解有些许偏差。

GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens，其首次在模型架构中将Function Call（工具调用）能力原生融入视觉模型。

在性能上，在同等参数规模下，GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。

其中，9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中，有22项的分数超过Qwen3-VL-8B，106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近。

▲GLM-4.6V系列模型基准测试（图源：z.ai/blog/glm-4.6v）

价格上，GLM-4.6V系列相较于GLM-4.5V降价50%，API调用价格低至输入1元/百万tokens，输出3元/百万tokens，GLM-4.6V-Flash全面免费。

▲GLM-4.6V系列模型价格表（图源：智谱AI）

GLM-4.6V开源地址：

GitHub：

https://github.com/zai-org/GLM-V

Hugging Face：

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区：

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址：

https://c h a t.z.ai/

一、智能图文混排：可生成推文大纲，但无法显示图片

首先是智能图文混排与内容创作能力，GLM-4.6V构建了原生多模态工具调用能力，可以直接理解图像、截图、文档页面等多模态数据，无需先转为文字描述再解析。

我们上传了GLM-4.5V的技术报告，要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟，GLM-4.6V就完成了对整个文档的阅读和理解，输出了包含标题、导语、五个章节以及结语的完整公众号文章，但经过多次尝试，其依旧无法显示出图片。

▲智能图文混排

二、识图购物与导购：自动比价一气呵成，但模糊搜索理解不到位

为了体验GLM-4.6V识图购物与导购功能，我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V会自动调用相关工具在全网中搜索，并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格，直接点击链接即可跳转到购买页面。

▲商品比价

我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜，其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。

▲模糊搜索导购

三、网页复刻：一张图丝滑生成网页代码，但图标更换不对

我们上传了一张X平台的登录页面截图，要求用户GLM-4.6V生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览

收到指令后，GLM-4.6V就立刻开始逐行生成HTML代码，并显示出预览页面。可以看出，其生成的“仿X”登录网页与原网页几乎一模一样。

此外，GLM-4.6V还支持多轮视觉交互，直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。

比如，我们在上一轮输出的基础上，要求其将网页主题色改为天蓝色，图标X改为Z，但还保持原风格。可以看到，针对修改主题色的要求，GLM-4.6V完成的很完善，但对于图标X改为Z的指令，其误生成了一个“向上箭头”形状。

▲修改网页元素

四、长上下文的文档理解：可同时处理多篇中英文论文，长文档理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k，在实际应用中，128k上下文约等于150页的文档、200页PPT或一小时视频。

为验证其长上下文的文档理解能力，我们直接甩给GLM-4.6V三篇网络平台治理领域的论文，其中有两篇中文文献和一篇英文文献，让其阅读以上论文，并生成一篇学习笔记。

▲生成论文学习笔记

从GLM-4.6V生成的效果来看，图片依旧没有显示出来，但文字部分内容齐备，逻辑清晰，将每篇文献中的核心观点和结论都清晰地罗列了出来，英文文献处理也没有错漏。

五、视频理解：能快速解析视频内容和拍摄技巧，但视频大小有限制

最后，GLM-4.6V还可以理解长视频内容，用户可以上传一部200M以内的MP4影片，要求其分析视频的拍摄手法和内容、结构等。

比如，我们上传了一段6分48秒的视频制作技巧分享视频，想要其总结一下视频的思路和内容，并给一些做摄影类自媒体的建议。

▲视频内容理解（上下滑动查看完整图片）

GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解，并且给出了循序渐进的四条成为摄影博主的建议，回答准确且清晰完整。

结语：GLM-4.6V降低了视觉模型接入门槛

从实际体验来说，GLM-4.6V在日常工作上已经能帮不少忙，但生成效果还不太稳定，生成公众号文章时图片出不来、改网页细节时仍会有瑕疵，但其价格降到了上一个版本的一半，轻量版还免费，对于想尝试多模态AI的个人或小团队来说，门槛确实降低了不少。

在当前各家AI能力越来越接近的情况下，谁能把体验做得更顺畅、成本更低，谁就可能吸引更多开发者。

在最新推文中，智谱团队写到本周是其开源发布周，将会有更多成果开源，值得期待。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：国产AI开源实测：截图转网页、搜图购物，价格减半要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KGC1EEH2051180F7.html

调用截图上下文多模态ai

上一篇：千问月活破3000万，上新AI+PPT四大重磅功能

下一篇：苹果前COO威廉姆斯火速入职迪斯尼董事提名

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI生成电商短视频工具有哪些收费标准与性价比对比 02 / 本周GitHub 热门项目 claude-skills 发布：集成 337 项技能，赋能 Claude Code 与主流编程智能体 03 / 本周国内免费文生视频平台排行榜：免费额度、稳定性与商用能力实测 04 / 本周Claude改报告文字怎么让提示词只改表达不改结论 05 / 本周跃问AI英语作文写作与语法纠错方法

01 / 本月AI生成电商短视频工具有哪些收费标准与性价比对比 02 / 本月GitHub 热门项目 claude-skills 发布：集成 337 项技能，赋能 Claude Code 与主流编程智能体 03 / 本月国内免费文生视频平台排行榜：免费额度、稳定性与商用能力实测 04 / 本月Claude改报告文字怎么让提示词只改表达不改结论 05 / 本月跃问AI英语作文写作与语法纠错方法

热点快看

07-07 15:00AI生成电商短视频工具有哪些收费标准与性价比对比 07-07 15:00GitHub 热门项目 claude-skills 发布：集成 337 项技能，赋能 Claude Code 与主流编程智能体 07-07 15:00国内免费文生视频平台排行榜：免费额度、稳定性与商用能力实测 07-07 15:00Claude改报告文字怎么让提示词只改表达不改结论 07-07 15:00跃问AI英语作文写作与语法纠错方法

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别