VibeThinker-3B:新浪微博开源30亿参数数学算法竞赛推理模型
一、VibeThinker-3B是什么 先说个让人眼前一亮的事实:VibeThinker-3B,来自微博AI团队,一个只有30亿参数的轻量化推理大模型,却敢正面叫板那些动辄几百亿甚至上千亿参数的“巨无霸”。它基于Qwen2 5-Coder-3B基座微调,2026年6月16日开源,采用MIT协议——意
一、VibeThinker-3B是什么
先说个让人眼前一亮的事实:VibeThinker-3B,来自微博AI团队,一个只有30亿参数的轻量化推理大模型,却敢正面叫板那些动辄几百亿甚至上千亿参数的“巨无霸”。它基于Qwen2.5-Coder-3B基座微调,2026年6月16日开源,采用MIT协议——意味着你可以免费商用,甚至直接搬到自己本地跑起来。
这个项目的定位非常清晰:可验证推理专用模型。什么叫可验证?就是那些答案有客观标准、能自动校验的任务——比如数学题、代码逻辑、STEM推导。它直接挑战了一个行业惯性思维:模型越大,推理越强。相反,VibeThinker-3B提出并验证了参数压缩-覆盖假说:数学、代码、STEM这类逻辑推理能力,其实可以被高度压缩进更少的参数里。30亿参数,就能跟百亿、千亿参数的大模型在解题效果上掰手腕。当然,代价也很明显——通用闲聊、百科常识、创意写作这些开放任务,它就不太行了,短板肉眼可见。
发布之后,它直接冲上了Hugging Face全球热榜,还在Hacker News拿到了第四名,称得上是国产轻量化推理模型的新标杆。而整个权重文件只要6GB左右,一张普通消费级显卡、甚至笔记本都能本地离线跑起来。

五、使用方法
1. HuggingFace Transformers 快速推理(Python极简代码)
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "WeiboAI/VibeThinker-3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, device_map="auto")
prompt = "求解AIME难度代数题:已知xxx,请分步写出完整推导过程并校验答案"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=8000)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
2. 本地部署硬件门槛
最低配置:8G显存显卡(4bit量化)
推荐配置:16G显存显卡(FP16原版,完整64k上下文)
无显卡方案:CPU推理(速度较慢,适合小批量测试)
3. 国内镜像加速下载
ModelScope平台也同步上架了权重文件,国内用户下载不用翻跟斗,直接加载就行,一行代码搞定。
4. 二次微调流程
如果你手里有自建的数学或代码题库,可以依托SSP训练框架做微调。采用课程式SFT + MGPO强化学习流水线,能把模型垂直优化到你的行业专属推理任务上,非常灵活。
六、竞品对比
为了看清VibeThinker-3B的真实水平,我们挑了同赛道的两款轻量化推理模型,再加一款千亿参数的旗舰模型,只比较推理能力——毕竟它们定位不同,不拿短板说事。
| 对比维度 | VibeThinker-3B(WeiboAI) | Qwen2.5-Coder-7B(阿里通义千问) | DeepSeek V3.2(671B,深度求索) |
|---|---|---|---|
| 参数规模 | 3B | 7B | 671B |
| 核心定位 | 竞赛级可验证推理专用 | 通用代码+基础数学 | 全领域通用旗舰推理 |
| AIME26得分 | 94.3 | 72.6 | 94.2 |
| LiveCodeBench Pass@1 | 80.2 | 69.5 | 83.7 |
| 本地部署显存门槛 | 8G(4bit量化) | 12G最低 | 单卡无法部署,需多卡集群 |
| 推理算力成本 | 极低,云端API成本仅千亿模型1/50 | 中等 | 极高,商用调用单价昂贵 |
| 通用闲聊/百科能力 | 弱,仅支持推理任务 | 中等,兼顾简单对话 | 极强,全场景覆盖 |
| 开源协议 | MIT,完全免费商用 | Apache 2.0 | 权重非完全开源,商用有约束 |
| 特色技术 | SSP四级训练流水线、MGPO强化学习 | 原生代码基座,通用平衡优化 | 超大参数量全域知识储备 |
数据很扎心:在AIME数学竞赛上,VibeThinker-3B以94.3分把7B的Qwen2.5-Coder甩开一大截,甚至比671B的DeepSeek还高了0.1分。LiveCodeBench的编程测试也达到80.2,跟千亿模型差距不到3.5分。而它的显存需求只有8G,算力成本更是只有千亿模型的五十分之一。代价?通用闲聊和百科能力确实弱,但这就是取舍——专注才有极致。
七、常见问题解答(FAQ)
Q1:VibeThinker-3B可以用来写文案、日常聊天吗?
A:别指望了。它就是个推理专用的小模型,没为通用对话、创意写作那些事做过训练。闲聊、散文、营销文案,效果会很差。只推荐用在数学、代码、结构化推导这类任务上。
Q2:3B参数的模型,为什么数学竞赛成绩能超过671B的DeepSeek V3.2?
A:核心秘诀在SSP专属训练流水线和参数压缩-覆盖假说。可验证推理任务逻辑规则固定、答案能自动校验,通过课程式难题训练、多路径自蒸馏、MGPO定向强化学习,能把推理能力高度压缩进3B参数里。而千亿大模型得匀出大量参数去存通用常识,在纯推理这个细分赛道上反而吃亏了。
Q3:模型是否支持免费商用,有没有授权费用?
A:完全免费商用,MIT协议,没有授权费,也没有商用规模限制。企业可以直接私有化部署、二次微调,然后用到商业产品里。
Q4:本地运行最低需要什么配置电脑?
A:显卡4bit量化的话,只要8G显存就能跑起来。如果想用FP16原版完整权重,建议至少16G显存。没有独立显卡也能用CPU跑,但生成速度会很慢,不适合批量任务。
Q5:能否基于自有题库对模型做二次微调?
A:当然可以。官方公开了完整的训练技术流程,支持导入自定义数学、算法题库,复用SSP课程学习+MGPO强化学习流水线,垂直适配你的行业专属推理场景。
Q6:模型权重国内下载慢,有替代渠道吗?
A:ModelScope平台同步上架了VibeThinker-3B权重,国内服务器直连下载,不用科学上网,加载代码跟Hugging Face完全兼容。
Q7:CLR声明级可靠性增强是什么,需要额外训练吗?
A:CLR是一种声明式答案校验推理策略,属于推理阶段的提示词优化方案,不需要重新训练模型。在推理时往Prompt里加一段校验指令,就能提升数学基准得分,最高能提将近3分。
八、相关链接
HuggingFace官方模型仓库:https://huggingface.co/WeiboAI/VibeThinker-3B
配套技术论文arXiv地址:https://arxiv.org/pdf/2606.16140
国内ModelScope镜像仓库:https://www.modelscope.cn/models/WeiboAI/VibeThinker-3B
九、总结
VibeThinker-3B是微博AI团队用SSP专属后训练技术打磨出来的3B轻量化可验证推理开源模型。它用极小的参数量,在数学竞赛、算法编程、STEM结构化推导赛道上,硬是对标甚至超越了百亿、千亿参数的旗舰模型。低显存门槛、零成本商用授权、完整开放的训练框架,让它成为教育、开发者工具、企业轻量化AI服务里一个性价比极高的离线推理方案。
更重要的是,它用大量竞赛实测验证了参数压缩-覆盖假说,清晰区分了可验证推理和通用知识任务对模型参数的不同需求。走通了一条“小参数垂直专用”的技术路线——性能、成本、私有化三不误,这才是国产推理模型该有的样子。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:VibeThinker-3B:新浪微博开源30亿参数数学算法竞赛推理模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点一加Turbo6X开售,含标准版与Pro版,起售价1499元,国补价1274 15元。搭载天玑7360SUPER和7400SUPER,144Hz屏,7000 8000mAh电池,主打长续航高性价比。
蔚来汽车近日上市了2026款ET5、ET5T和EC6的冠军纪念版车型。新车主打赛道竞速设计风格,提供专属外观内饰与智能座舱主题。最大的亮点在于推出了BaaS电池租用方案,ET5 ET5T租电版起售价20 5万元,EC6租电版起售价26 5万元,大幅降低了购车门槛。车辆在底盘方面进行了针对性调校,提升
微软射击游戏《战争机器:E-Day》公布PC配置要求,将于2026年10月发售。配置清单引人注目地将尚未发布的RTX5050和RX9060显卡列为最低要求,同时兼容多款现有中端显卡。游戏需130GB固态硬盘空间,最低要求12GB内存和六核CPU。官方未明确对应画质与帧数,但推测将依赖超分辨率技术
软科近日发布2026年中国大学专业排名,覆盖1132所高校的3万余个专业点。排名显示,北京大学以93个A+专业位居榜首,清华大学和哈尔滨工业大学分列二、三位。榜单同时引入“A+专业精度”指标,中国人民公安大学以93 8%的精度领先。此外,北京大学、吉林大学、武汉大学在上榜专业总数上位列前三。该排名从
- 日榜
- 周榜
- 月榜
热点快看
