数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

最新开源Claude时刻到来，智谱GLM5.2大模型与Mythos同台对比

AI热点日报时间：2026-06-30

热点解读

近日，智谱开源模型GLM-5 2在安全漏洞检测领域表现突出，裸跑IDOR漏洞检测F1达39%，超越了ClaudeCode；在追加指令后追平ClaudeMythos。平均每发现一个安全漏洞成本仅0 17美元。目前国产模型与美国顶级模型性能差距已收窄至2 7个百分点。

本周末，智谱公司发布的最新开源模型 GLM-5.2 在网络安全领域引起了全球范围内的广泛关注。多家国际媒体跟进报道，《华尔街日报》更直言「中国重置了AI竞赛」。代码安全公司 Semgrep 的评估测试显示，GLM-5.2 在寻找安全漏洞这一关键任务上的表现，已经与 Anthropic 的 Claude Mythos 不相上下。接下来，我们将为您详细解读这一事件的核心要点、技术细节以及背后的行业趋势。

一、GLM-5.2 在安全漏洞检测中的惊人表现

Semgrep 的测试初衷并非评选最强开源模型，而是想探究：AI 查找漏洞的成绩中，模型本身的能力与外部脚手架（如 SDK、工具链）的贡献各占多少？这一结果让整个团队感到非常意外。

1. 裸跑测试：碾压其他模型与闭源产品

GLM-5.2 在没有任何额外指令或工具辅助的情况下，仅凭一个提示词（prompt）和一堆代码进行「裸跑」，在 IDOR（不安全的直接对象引用）漏洞检测 上取得了 39% 的 F1 分数。这一成绩不仅远超其他同样裸跑的开源模型，甚至击败了搭载完整 SDK 支持、使用 Opus 4.8 的 Claude Code（后者仅 32%）。

2. 什么是 IDOR 漏洞？为何它如此难检测？

IDOR 的全称是 Insecure Direct Object Reference，简单来说就是：系统暴露了内部的用户 ID 或数据库键值，却没有验证请求方是否拥有访问权限。 只需修改一下 ID，就能获取他人的数据。这类漏洞在安全领域以难以检测而著称——它并非普通的危险函数调用，而是考验模型能否发现一个「本应存在但缺失的校验机制」。目前，IDOR 在 HackerOne 漏洞类型排行榜上位列第四，是实战中最常被利用的漏洞之一。

3. 追加指令后追平 Mythos

根据《华尔街日报》的报道，GLM-5.2 在加入额外指令后，漏洞查找能力可以进一步追平 Mythos。这意味着，开源模型在最重要的安全维度上，首次与闭源顶级模型站在了同一水平线上。

4. 性价比：一个漏洞仅需 0.17 美元

GLM-5.2 在价格上极具竞争力：输出 token 价格仅为 Claude Opus 4.8 的五分之一、GPT-5.5 的七分之一。每发现一个漏洞的计算成本仅为 0.17 美元。在 Kilo Code 中运行规划任务时，GLM-5.2 获得了 9.0 分，而 Fable 5 为 9.1 分，两者几乎持平。

小提示： 如果在实际网络安全工作中部署 AI 漏洞扫描，建议优先测试 GLM-5.2 的裸跑效果，再根据预算决定是否加入定制指令——性价比优势非常明显。

5. 孤独的领跑者：与第二名差距显著

值得特别注意的是，GLM-5.2 与排名第二的开源模型之间的差距，比它和 Claude Code 之间的差距还要大 16 个百分点。这并非意味着开源模型集体追上了闭源，而是智谱独自跨越了那道门槛。

二、国产模型正在崛起：不止是智谱

7AI 的 CEO Lior Div 评价道：中国在持续缩小与美国的差距，而且这一趋势不会停止。Stanford 2026 AI Index 数据显示：美国和中国最强模型之间的综合能力差距已收窄到 2.7 个百分点。

1. 智谱的持续加速：4 个月 4 个前沿模型

智谱在过去四个月里发布了四个前沿级的 coding 模型：GLM-5、5-Turbo、5.1、5.2。这一发布节奏不输任何顶级实验室。智谱创始人唐杰在 Mythos Preview 发布后曾表示：AI 查找漏洞学习的不仅仅是搜索，而是顶级黑客的直觉和方法论，并且能够 24 小时不间断运行。他判断，这本质上是一场替代黑客的革命。

2. 360 等厂商的跟进

就在 GLM-5.2 引发热议的同一周，另一家中国安全公司 360 也宣布推出自己的漏洞检测工具，同样声称能够比肩 Mythos。国产模型在网络安全这一战略维度上，正逐步形成集团优势。

常见问题

Q：GLM-5.2 是否已经全面超越 Claude Mythos？

A：并非如此。在 IDOR 漏洞检测这一特定任务上，GLM-5.2 在裸跑和相关指令加持下追平甚至局部超越了 Mythos，但在其他安全任务（如复杂逻辑漏洞、0day 发现层级）的对比数据尚未公开。Mythos 在 OpenBSD 中发现 27 年旧漏洞等成就，仍然代表了最高水平。GLM-5.2 的意义在于证明了开源模型在关键安全任务上已经具备竞争力。

Q：企业应该如何评估是否使用 GLM-5.2？

A：建议从三个维度进行评估：①任务类型（IDOR 类漏洞优先推荐）；②成本预算（成本仅为闭源方案的 1/5～1/7）；③安全合规（开源模型可本地部署，避免数据外泄风险）。可以先利用 Semgrep 等工具搭建裸跑测试环境来验证效果。

三、安全维度为何战略意义重大？

Mythos 曾花费两天时间、约 2 万美元的算力，挖出一个隐藏在 OpenBSD 里长达 27 年、从未被人发现的漏洞。Anthropic 研究员 Nicholas Carlini 使用一套后来被称为「Carlini Loop」的提示词驱动 Mythos 扫描代码，翻出了数百个 bug，其中 Ghost 平台的一个漏洞在几周后就被黑客在野外利用了。这套能力既能防守也能进攻，已经被现实所验证。

1. 安全圈的现实：bugmageddon 降临

安全圈有一个术语叫 bugmageddon：AI 发现漏洞的速度，已经超过了人类打补丁的速度。八年前，一个漏洞从被发现到被利用平均需要 847 天；现在这个窗口期已缩短到一天以内。

2. 市场天平正在倾斜

曾领导 Google 安全团队的 Niels Provos 判断：这种局面正把全球用户推向更便宜但同样强大的中国开源模型。差距在缩小，使用天平也在同步倾斜——本质上是市场在用实际行动，对国产模型的 AI Coding 能力投下赞成票。

3. 马斯克与唐杰的隔空对话

六月中旬，马斯克在 X 上表示，智谱最快到明年初就能在 benchmark 上追上美国顶尖模型。当时智谱创始人唐杰回了一句：「不用那么久」。现在看来，至少在查找安全漏洞这件事上，他说对了。

参考链接：

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：最新开源Claude时刻到来，智谱GLM5.2大模型与Mythos同台对比要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.aitntnews.com/newDetail.html?newId=26671

Claude

上一篇：Claude长文本提示词优化方法：保持逻辑连续性

下一篇：高德内测袋马一句话生成微信小程序与iOS应用

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。