VibeThinker-3B小型语言模型探索之旅

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

VibeThinker-3B小型语言模型探索之旅

热心网友时间：2026-06-22

转载

VibeThinker-3B是VibeThinker系列在3B参数规模上的最新尝试，聚焦于那些带明确验证信号的挑战性推理任务——数学、编程、STEM领域。通过对VibeThinker-1.5B中引入的频谱到信号原理（SSP）后训练流程做系统化升级，这家伙在AIME、HMMT、IMO-AnswerBench、LiveCodeBench乃至最新的LeetCode竞赛中，成绩亮眼。在可验证推理基准上，它已经能与Qwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5这些顶尖前沿模型掰手腕了。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/e7c8a58e5f3b15490f4af6388743614c.png)

基于这些观察，我们发现一个很有意思的现象——不妨叫它“参数压缩-覆盖假设”：不同的能力，对参数的依赖方式根本不同。可验证推理更像是一种高可压缩、参数密集的能力，核心在于多步推理、约束满足、自我纠正、答案验证。只要任务空间结构足够清晰，反馈信号足够可靠，紧凑模型也能逼近前沿水平。相反，开放域知识、通用对话、长尾场景理解，则高度依赖大参数规模去广泛覆盖事实、概念和世界知识。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/65771e0b3ab41d387e4379678b070224.png)

来看具体数字：VibeThinker-3B只有30亿参数，在IMO-AnswerBench（400个IMO级别问题的硬核基准）上拿到76.4分，借助一项叫Claim-Level Reliability Assessment（CLR，一种针对答案可验证推理的测试时缩放策略）的加持后，进一步提高到80.6分。对比一下：DeepSeek V3.2（6710亿参数）是78.3分，GLM-5（7440亿参数）82.5分，Kimi K2.5（1万亿参数）81.8分。不到3亿分之一的参数量，却跑出了同一梯队水平的分数，这才是关键所在。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3585893e3a314440d6528a8277e79f18.png)

更现实的一点：3B规模的模型，消费级显卡就能跑起来，部署成本和门槛大大降低。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/947406e69d13f509d9eaf786fd0509dc.png)

从VibeThinker-1.5B到VibeThinker-3B，目标从来不是拿小模型去取代大模型，而是沿着特定能力维度，探一探小模型的真正边界。通过VibeThinker-3B，我们想传达一个信号：别再把小模型仅仅看作是降低部署成本的权宜之计。在有明确反馈和验证机制的能力领域，小规模语言模型（SLM）正在成为一条前景广阔的研究路线——性能达到前沿水平，跟传统参数扩展范式形成根本性互补。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/4c89fdba764ff06e39a202233ad18994.png)

这篇技术报告详细介绍了VibeThinker-3B——一个30亿参数的紧凑密集模型，核心目标就是在严格的小模型范围内，看看可验证推理到底能走多远。基于Spectrum-to-Signal后训练范式，通过优化流程系统增强，流程包括课程式有监督微调、多域强化学习、离线自蒸馏。评估结果相当硬核：AIME26上达到94.3分（声明级测试时间缩放后提高到97.1），LiveCodeBench v6上Pass@1得分80.2，在最近未见过的LeetCode竞赛中展现出强大的分布外泛化能力，接受率高达96.1%。这有效踏入了一流推理系统的性能行列，跟DeepSeek V3.2、GLM-5、Gemini 3 Pro等规模大几个数量级的旗舰模型相比，不落下风甚至超出。此外，IFEval上拿到93.4分，证实这种极端的推理增强并非以牺牲指令可控性为代价。这些发现延展了之前15亿参数成果，并催生了参数压缩-覆盖假设：可验证推理可以被压缩成紧凑的推理核心，而开放域知识和通用能力则需要对事实、概念、长尾场景进行广泛的参数覆盖。这一观点表明，紧凑模型并非仅仅是部署高效的替代品，而是在参数密集能力范围内实现前沿水平性能的补充途径。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3aeb7252143dff46f7bbcfa2594d30d9.png)

参考资料：
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140