数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

智谱唐杰全球征集GLM-5.3方向，评论区呼声最高的竟是视觉

AI热点日报时间：2026-07-01

热点解读

最近，清华教授、智谱AI灵魂人物唐杰在社交媒体上相当活跃。昨天刚聊完AI的终局认知，抛出了“AI的终局就是AGI，一场猎龙游戏”的观点，引发广泛讨论后，今天又当众发起了一次需求征集：各位！下个版本的GLM，你想要啥？这条推文刚发出，浏览量就飙到了40w+。其影响力可见一斑。但要说网友们为何如此

最近，清华教授、智谱AI灵魂人物唐杰在社交媒体上相当活跃。昨天刚聊完AI的终局认知，抛出了“AI的终局就是AGI，一场猎龙游戏”的观点，引发广泛讨论后，今天又当众发起了一次需求征集：

各位！下个版本的GLM，你想要啥？

这条推文刚发出，浏览量就飙到了40w+。其影响力可见一斑。

但要说网友们为何如此捧场，还得往回看。去年GLM-4.6刚开源时，唐杰也做过类似提问。当时的评论区里群策群力，一条条需求后来都陆陆续续在GLM后续版本中得到了实现。那叫一个“有求必应”。

所以这次一开口，懂行的人立刻团建去了——有人po出自己的痛点，连智谱自家员工都下场留言。

比方说，有网友直接拉出一张心愿单：更强的Agent能力、超长上下文保持质量、更灵活的API……

还有更直接的，诚恳祈祷：求你了GLM！做一个类似Codex的桌面应用吧！

不过有趣的是，这次GLM-5.3的评论区刷得最多的，居然还是——视觉能力。

GLM的视觉之痛

两周前，智谱刚刚开源了GLM-5.2。

作为纯文本模型，它强得离谱——百万Token超长上下文、深入的逻辑推理，开源界AI编程第一名，全球第二，仅次于大名鼎鼎的神话级模型Fable-5。

但痛点也真实得扎心：没有视觉能力。

看不了图，也造不出图。反观拿来对标的Fable-5，那是原生多模态，视觉能力应有尽有。于是GLM用户只能流下羡慕的泪水：我也想拥有……

关键在于，智谱不是做不出多模态视觉。今年4月，他们刚发布过一个叫GLM-5V-Turbo的模型：原生多模态Coding基座，从预训练阶段就把视觉和文本揉在一起，能看懂设计稿、截图、网页界面，然后直接吐出能跑的代码，主打视觉+代码+Agent一体化。

再往前看，智谱做过不少多模态模型，CogVLM视觉编码器就出自他们之手。唐杰本人发表过的视觉论文，更是一抓一大把。

所以问题根本不是有没有视觉能力，而是智谱没把视觉放进最强旗舰模型中去。

这一点从唐杰过往的发言中也有迹可循。比如去年底的大模型年终总结里，他先是肯定多模态是未来。但随即话锋一转：

问题是，当下的多模态对提升AGI的智能上界，帮助有限。可能最有效的方式还是分开发展，文本、多模态、多模态生成。当然，适度的探索这三者的结合肯定能发现一些很不一样的能力，但这需要勇气和雄厚的资本支持。

你品，你细品。唐杰这种冲在AI一线的科学家，盯着的始终还是第一性原理——模型智能。视觉可以让模型更好用，但要让模型更聪明，靠的还是复杂推理那套硬功夫。

这就是用户和厂商的视角差异。AGI对于用户太遥远了，他们更在乎的是，眼下贴张图模型能不能接住、截个屏模型能不能看懂。

于是便有了这篇推文里最微妙的拉扯：一边是科学家盯着智能天花板，觉得视觉只是锦上添花；一边是全世界的开发者齐刷刷呼喊视觉能力。

而且，对手也来势汹汹。Kimi K2.5今年1月就是原生多模态了，Qwen3.5-Omni三月份端到端把文本/图像/音频/视频全统一进一个模型；更别说国际上Gemini 3那种原生文图音视频一把抓的。

GLM旗舰款补足视觉，几乎是迫在眉睫。且等接下来端上桌的GLM-5.3。

One More Thing

最后，不妨再看看唐杰最近的一些分享，挺值得琢磨的。

（其一）

（其二）

（其三）

（其四）

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：智谱唐杰全球征集GLM-5.3方向，评论区呼声最高的竟是视觉要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/L0MF883R0511DSSR.html

唐杰

上一篇：LiveWorld视频世界模型新范式，让镜头外世界持续演化

下一篇：联想乐享超级智能体升级：从问答到闭环执行

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Daetama数据科学完整准备工作系统指南与精选学习资源汇总 02 / 本周AI驱动配音平台 Speakmulti 03 / 本周Umi-OCR图片转文字识别软件 04 / 本周用AI生成你最爱的画家或艺术运动风格绘画 05 / 本周创一AI短视频脚本工具，专为创作者与编导设计

01 / 本月Daetama数据科学完整准备工作系统指南与精选学习资源汇总 02 / 本月AI驱动配音平台 Speakmulti 03 / 本月Umi-OCR图片转文字识别软件 04 / 本月用AI生成你最爱的画家或艺术运动风格绘画 05 / 本月创一AI短视频脚本工具，专为创作者与编导设计

热点快看

07-04 19:00Daetama数据科学完整准备工作系统指南与精选学习资源汇总 07-04 19:00AI驱动配音平台 Speakmulti 07-04 18:59Umi-OCR图片转文字识别软件 07-04 18:59用AI生成你最爱的画家或艺术运动风格绘画 07-04 18:59创一AI短视频脚本工具，专为创作者与编导设计

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别