马斯克称明年Q1,唐杰说更快,谁在闷头打造中国Mythos
Mythos被禁凸显自研紧迫。马斯克预测需九个月,唐杰认为更快。GLM-5 2逼近前沿,需基座与后训练并重。MindLab作为唯一完成GLM-5 1 5 2后训练的外部团队,评测超越基座,证明后训练可释放潜力,且迭代快于基座研发。叠加后训练,中国模型有望加速追赶。
Mythos 被禁了。

Anthropic 那款令整个硅谷陷入沉默的大模型,如今已被美国政府禁止向中国出售。X 平台上有人直接向马斯克提问:中国何时才能追赶上?Musk 回应称需要九个月。智谱首席科学家唐杰则回了一句:用不了那么久。
GLM-5.2 刚刚发布,评测成绩全面逼近国际前沿,基座模型的差距正在肉眼可见地缩小。唐杰的信心大概率来源于此。但更值得深究的是:要追平Mythos,单靠基座迭代是否足够?
显然不够。OpenAI 从 GPT-4 到 o1,核心增量来自后训练阶段。Anthropic 的 Constitutional AI 本质上也是后训练方法论的成果。基座决定模型上限,而后训练决定你能触及上限的多少。事实上,GLM 从 5.1 跨越到 5.2,其能力提升本身就是后训练策略的胜利。
这就引出了一个关键线索:恰好两周前,机器之心报道了一家专门从事大模型后训练的团队——Mind Lab,隶属于 Mindverse(心洲科技)。从 HuggingFace 公开数据来看,他们目前是全球唯一完成 GLM-5.1/5.2 系列模型后训练的外部团队。他们基于 GLM-5.1 进行后训练推出的 Macaron-V1-Preview 模型,评测结果已经超越了基座本身,提分幅度相当显著。
这意味着什么?如果 GLM 基座能力持续攀升,Mind Lab 已验证过的后训练提分能力再叠加上去,通过后训练路线追平 Mythos 级别的智能,Mind Lab 同样拥有机会。
看到唐杰那条回帖后,我特意去调研了 GLM 的后训练生态,发现的信息相当提振信心。
去 HuggingFace 上翻了一圈
从 HuggingFace 数据来看,Mind Lab 至今仍然是全球唯一一家完成了 GLM-5.1/5.2 系列模型后训练的实验室。在 GLM-5.1 的 finetune 和 adapter 分类下,翻来覆去只有他们一家走完了全流程并公开了发布成果。
一个有意思的细节:HuggingFace 上 GLM-5.1 后训练模型下载量排名第四的,其实是另一个团队(inferencerlabs)对 Macaron 做了量化,使其可以直接运行在 Mac 上。别人的模型已经在被二次加工和传播,生态影响力正在自发形成。
GLM-5.2 发布之后我们再次查看,Mind Lab 同样是第一个宣布支持并启动后训练的团队。值得留意的是,GLM-5.2 引入了一项全新的架构设计 IndexCache,这是该版本区别于 5.1 的核心技术变化之一。Mind Lab 已经完成了对 IndexCache 的完整适配,并将方案直接开源。新基座刚发布,核心新架构的训练支持就已到位并开源,这种响应速度本身就说明了问题。更早之前,他们就在技术博客中披露了针对 DSA(动态稀疏注意力)和 MTP(多 token 预测)这些 700B 以上模型特有架构模块的适配方案。
从架构适配到训练框架,再到开源发布,每次 GLM 推出新版本,Mind Lab 的跟进速度都是按天计算的——这绝非临时抱佛脚所能实现。
后训练提了多少分
上一轮的成绩单已经摆在那里了。
基于 GLM-5.1 的后训练,Mind Lab 的提分幅度相当可观:PinchBench 从 GLM-5.1 基座的 76.6 分提升到 Macaron-V1-Preview 的 92.5 分,足足涨了 15.9 分,相对提升约 20.8%;Terminal-Bench 2.0 从 63.5 分提升到 67.4 分,上涨 3.9 分。这个幅度清晰地说明一件事:GLM 系列的基座能力远没有被充分释放,后训练仍存在着巨大的提分空间。
如今他们转移到了 GLM-5.2 上。5.2 相比 5.1 基座能力有了显著跃升,后训练能释放的空间也随之扩大。
GLM5.1 到 5.2 的跨越,本质上就是后训练的胜利。而 Mind Lab 是目前唯一具备 GLM5.1/5.2 后训练能力的外部团队,也是唯一具备 GLM5 系列后训练能力的外部团队。智谱的基座能力还在持续攀升,年底大概率会发布新一代模型。到那时,基座本身的能力迈出一大步,Mind Lab 在后训练上积累的提分能力再叠加上去,逻辑链条是连贯的——Mind Lab 同样有机会追平 Mythos 同等水平的智能。
而且有一点容易被忽视:做后训练的团队,迭代周期天然比做基座的短。基座训练动辄几个月,后训练的周期是按周计算的。新基座一出来,后训练团队理论上能比基座团队自己更快地把能力释放出来。在“从智谱新基座到 Mythos 级别产品”这段路程上,Mind Lab 的节奏可能比你想象的快,因为他们只专注这一件事。
除了智谱自己,只有他们
既然后训练价值如此之大,为什么从事这一工作的团队如此之少?
门槛实在不低。三个能力缺一不可:
对基座架构的深度理解。GLM 使用的 MTP 和 DSA 都是 700B 以上模型才用到的技术,IndexCache 更是支持 GLM5.2 训练到 1M 上下文的关键技术——绝不是拿开源训练框架直接就能跑通的。
高质量训练数据的构造能力。后训练和预训练使用的数据完全不同,不是规模取胜,而是质量和结构决定效果。这部分 know-how 在行业中高度不透明。
工程基础设施。大模型后训练同样消耗大量算力,同样需要精细到每个超参数的训练策略管理。就在最近,Mind Lab 直接开源了一套支持 GLM-5.1 和 5.2 的 Megatron 训练框架。这意味着他们不只是在现有框架上做适配,而是从训练基础设施层面把 GLM 系列的后训练链路彻底打通了——而这个工程量本身就是一道极高的门槛。
GLM-5.1 发布至今已有一段时间,HuggingFace 上完成全套后训练并开源的只有一家。除了智谱自己,Mind Lab 是目前唯一展现出能力,在 GLM 最新基座上做后训练的外部团队。这个位置本身就是稀缺资源。
九个月够不够
Mythos 被禁,中国想要用上同等能力只能靠自主研发。马斯克说需要九个月。唐杰说用不了那么久。
唐老师表示,打造中国的 Mythos 需要两条腿走路:一是基座预训练迭代,二是后训练模型的自我迭代。智谱在前者的位置很明确,而后者的位置上,Mind Lab 是目前除智谱以外唯一交出公开成果,并且持续在 GLM 最新基座上进行迭代的团队。
后训练赛道在国内还没有获得足够关注。大部分讨论集中在基座之争:谁的参数多、谁的评测高、谁又发布了新版本。但当基座差距逐渐收窄,后训练的质量会越来越成为产品体验的分水岭。
九个月够不够,我们无法确定。但有一件事是确定的:在 GLM5.1/5.2 的后训练路线上,目前唯一看得到路径、并且已经用成绩证明过提分能力的外部团队,就是 Mind Lab。Mythos 级别的智能不是只有预训练一条路才能抵达——后训练这条路上,Mind Lab 已经站在了最近的位置。
这件事,振奋人心。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:马斯克称明年Q1,唐杰说更快,谁在闷头打造中国Mythos要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点想要让大语言模型彻底告别“胡说八道”?检索增强生成(RAG)无疑是一项非常可靠的解决方案。然而,许多开发者一听到 RAG,脑海中立刻浮现出复杂架构、繁琐配置以及大量调优步骤——光是想想就让人望而却步。但说实话,只需不到200行 Python 代码,就能将 RAG 的完整工作流程阐释得一清二楚。本文的
今天凌晨,OpenAI 发布了一项全新工具——SimpleQA,这是一个专为评估和校准大模型事实性能力而设计的开源基准测试集。对于开发者而言,它就像一把精准的“事实测谎仪”,能够直接检验模型是否在输出虚假或错误信息。 当前,大模型“一本正经地胡说八道”的问题已经屡见不鲜。举个例子,如果你询问“NBA
这篇综述文章恰逢其时。随着大语言模型快速演进,下一代系统交互正加速迈向基于自然语言的对话交互模式,大量自然语言交互日志将随之涌现。如何高效提取、总结、分析并推理这些对话日志,进而实现系统优化、客户运营、需求洞察等应用,已成为行业关注的核心议题。 所谓对话分析,本质上是从各类对话中识别关键信息、挖掘潜
小型语言模型因高效低耗而受关注,综述系统梳理了模型架构、训练技术和模型压缩三大领域,提出基于技术与约束轴的新分类法,总结基准数据集与评估指标,并指出开放挑战。
- 日榜
- 周榜
- 月榜
热点快看
