微博开源30亿参数密集推理模型VibeThinker-3B
VibeThinker-3B是什么 新浪微博团队近期发布了一款颇受关注的小模型——VibeThinker-3B,它仅有30亿参数,是基于Qwen2 5-Coder-3B打造的密集推理模型。其核心亮点在于全新的Spectrum-to-Signal后训练流程。结果令人惊讶:在数学、编程这类可验证推理任务
VibeThinker-3B是什么
新浪微博团队近期发布了一款颇受关注的小模型——VibeThinker-3B,它仅有30亿参数,是基于Qwen2.5-Coder-3B打造的密集推理模型。其核心亮点在于全新的Spectrum-to-Signal后训练流程。结果令人惊讶:在数学、编程这类可验证推理任务上,这个“小家伙”竟能与Gemini 3 Pro、Claude Opus 4.5等动辄千亿参数的大模型一较高下。简而言之,这是对“小模型能力天花板”的一次极致探索,同时也为传统Scaling Law提供了另一种思路。
VibeThinker-3B的主要功能
别看它体量小,实际具备的核心能力可不少:
- 高难度数学推理:在AIME’26上斩获94.3分,HMMT’25达到89.3分,BruMO’25也有93.8分。这一成绩在任何数学竞赛中都足够亮眼。
- 竞技编程:LiveCodeBench v6的Pass@1达到80.2,LeetCode最新周赛/双周赛通过率高达96.1%,堪称刷题利器。
- STEM推理:IMO-AnswerBench得分76.4,配合CLR策略可进一步提升至80.6,复杂科学问题也能从容求解。
- 指令遵循:IFBench得分74.5,表明它对格式敏感和约束检查的能力同样在线。
- 测试时缩放(CLR):引入Claim-Level可靠性评估策略,即在推理阶段为答案准确率额外增加一道保险。
VibeThinker-3B的技术原理
性能从何而来?并非修改基座模型本身,而是后训练技术栈做到了极致。不妨拆解来看:
- 基座模型:基于Qwen2.5-Coder-3B,30亿参数的密集架构完全保留,所有提升均来自训练流程的优化。
- Spectrum-to-Signal 范式:名称听来深奥,核心逻辑却很清晰——先通过SFT阶段将能力覆盖范围“扩宽”(频谱阶段),再通过RLVR阶段在可验证任务上“精准打磨”(信号阶段)。
- 两阶段课程SFT:第一阶段广泛覆盖数学、编程、STEM和对话能力;第二阶段则专攻高难度长推理样本,层层递进,不走弯路。
- 多样性探索蒸馏:不再追求“唯一最优解”的窄路,而是保留多条有效推理路径,使模型面对复杂问题时泛化能力更强。
- MGPO强化学习:在GRPO基础上增加额外权重,专门挑选那些对当前策略“既不太容易也不太困难”的样本来优化,训练效率自然更高。
- 多领域顺序RL:严格按照Math → Code → STEM的顺序进行强化学习。这一顺序经实验证明为最优解。
如何使用VibeThinker-3B
上手路径非常直观,门槛也不高:
- 下载模型:前往HuggingFace或GitHub仓库,拉取模型权重即可。
- 本地部署:基于transformers等框架加载这个3B参数模型,消费级硬件运行毫无压力。
- 调用推理:直接输入数学、编程或STEM类问题,模型会输出带有完整推理链(CoT)的答案。
- 启用CLR(可选):若是数学类任务,建议开启Claim-Level可靠性评估,准确率还能再上一个台阶。
VibeThinker-3B的核心优势
- 极小参数,前沿性能:3B参数对标千亿级模型,这一句话本身就极具分量。
- 课程式两阶段SFT:从广泛覆盖到高难度特训,层层深入,效果立竿见影。
- 多领域RL强化:按Math → Code → STEM的顺序依次强化,同时保留完整的64K长上下文推理轨迹。
- 离线自蒸馏:筛选高质量轨迹进行统一蒸馏,重点学习学生模型尚未掌握的正确路径。
VibeThinker-3B的项目地址
- GitHub代码仓库:https://github.com/WeiboAI/VibeThinker
- HuggingFace模型库:https://huggingface.co/WeiboAI/VibeThinker-3B
- arXiv技术论文:https://arxiv.org/pdf/2606.16140
VibeThinker-3B的同类竞品对比
将其与Claude Opus 4.5放在一起看,差异相当直观:
参数规模3B(密集模型) vs 未公开(推测数百B~千亿级)
开源程度完全开源(论文+代码+权重) vs 闭源(仅API/产品)
部署方式本地消费级GPU可运行 vs 仅云端API
定位可验证推理专用引擎 vs 通用智能助手
VibeThinker-3B的应用场景
从学术竞赛到边缘设备,它的落地场景其实比想象中更广:
- 算法竞赛备赛:辅助解答AIME、HMMT、IMO等数学竞赛题目,还能提供多路径推理作为参考。
- 编程面试训练:刷LeetCode、LiveCodeBench等编程题库时,它能给出带详细解释的正确解法。
- STEM教育辅导:物理、化学、生物等理科问题的逐步推导,它都能从容应对。
- 边缘端推理部署:由于仅有3B参数,手机、IoT设备等低算力环境也能顺畅运行。
- 推理能力研究:作为小模型推理上限的探索基准,为学术界研究Scaling Law的替代路径提供了重要参考。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:微博开源30亿参数密集推理模型VibeThinker-3B要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
