数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

微博开源30亿参数密集推理模型VibeThinker-3B

AI热点日报时间：2026-06-30

热点解读

VibeThinker-3B是什么新浪微博团队近期发布了一款颇受关注的小模型——VibeThinker-3B，它仅有30亿参数，是基于Qwen2 5-Coder-3B打造的密集推理模型。其核心亮点在于全新的Spectrum-to-Signal后训练流程。结果令人惊讶：在数学、编程这类可验证推理任务

VibeThinker-3B是什么

新浪微博团队近期发布了一款颇受关注的小模型——VibeThinker-3B，它仅有30亿参数，是基于Qwen2.5-Coder-3B打造的密集推理模型。其核心亮点在于全新的Spectrum-to-Signal后训练流程。结果令人惊讶：在数学、编程这类可验证推理任务上，这个“小家伙”竟能与Gemini 3 Pro、Claude Opus 4.5等动辄千亿参数的大模型一较高下。简而言之，这是对“小模型能力天花板”的一次极致探索，同时也为传统Scaling Law提供了另一种思路。

VibeThinker-3B的主要功能

别看它体量小，实际具备的核心能力可不少：

高难度数学推理：在AIME’26上斩获94.3分，HMMT’25达到89.3分，BruMO’25也有93.8分。这一成绩在任何数学竞赛中都足够亮眼。
竞技编程：LiveCodeBench v6的Pass@1达到80.2，LeetCode最新周赛/双周赛通过率高达96.1%，堪称刷题利器。
STEM推理：IMO-AnswerBench得分76.4，配合CLR策略可进一步提升至80.6，复杂科学问题也能从容求解。
指令遵循：IFBench得分74.5，表明它对格式敏感和约束检查的能力同样在线。
测试时缩放（CLR）：引入Claim-Level可靠性评估策略，即在推理阶段为答案准确率额外增加一道保险。

VibeThinker-3B的技术原理

性能从何而来？并非修改基座模型本身，而是后训练技术栈做到了极致。不妨拆解来看：

基座模型：基于Qwen2.5-Coder-3B，30亿参数的密集架构完全保留，所有提升均来自训练流程的优化。
Spectrum-to-Signal 范式：名称听来深奥，核心逻辑却很清晰——先通过SFT阶段将能力覆盖范围“扩宽”（频谱阶段），再通过RLVR阶段在可验证任务上“精准打磨”（信号阶段）。
两阶段课程SFT：第一阶段广泛覆盖数学、编程、STEM和对话能力；第二阶段则专攻高难度长推理样本，层层递进，不走弯路。
多样性探索蒸馏：不再追求“唯一最优解”的窄路，而是保留多条有效推理路径，使模型面对复杂问题时泛化能力更强。
MGPO强化学习：在GRPO基础上增加额外权重，专门挑选那些对当前策略“既不太容易也不太困难”的样本来优化，训练效率自然更高。
多领域顺序RL：严格按照Math → Code → STEM的顺序进行强化学习。这一顺序经实验证明为最优解。

如何使用VibeThinker-3B

上手路径非常直观，门槛也不高：

下载模型：前往HuggingFace或GitHub仓库，拉取模型权重即可。
本地部署：基于transformers等框架加载这个3B参数模型，消费级硬件运行毫无压力。
调用推理：直接输入数学、编程或STEM类问题，模型会输出带有完整推理链（CoT）的答案。
启用CLR（可选）：若是数学类任务，建议开启Claim-Level可靠性评估，准确率还能再上一个台阶。

VibeThinker-3B的核心优势

极小参数，前沿性能：3B参数对标千亿级模型，这一句话本身就极具分量。
课程式两阶段SFT：从广泛覆盖到高难度特训，层层深入，效果立竿见影。
多领域RL强化：按Math → Code → STEM的顺序依次强化，同时保留完整的64K长上下文推理轨迹。
离线自蒸馏：筛选高质量轨迹进行统一蒸馏，重点学习学生模型尚未掌握的正确路径。

VibeThinker-3B的项目地址

GitHub代码仓库：https://github.com/WeiboAI/VibeThinker
HuggingFace模型库：https://huggingface.co/WeiboAI/VibeThinker-3B
arXiv技术论文：https://arxiv.org/pdf/2606.16140

VibeThinker-3B的同类竞品对比

将其与Claude Opus 4.5放在一起看，差异相当直观：

对比维度VibeThinker-3BClaude Opus 4.5 开发方新浪微博 AI 团队 vs Anthropic
参数规模3B（密集模型） vs 未公开（推测数百B~千亿级）
开源程度完全开源（论文+代码+权重） vs 闭源（仅API/产品）
部署方式本地消费级GPU可运行 vs 仅云端API
定位可验证推理专用引擎 vs 通用智能助手

VibeThinker-3B的应用场景

从学术竞赛到边缘设备，它的落地场景其实比想象中更广：

算法竞赛备赛：辅助解答AIME、HMMT、IMO等数学竞赛题目，还能提供多路径推理作为参考。
编程面试训练：刷LeetCode、LiveCodeBench等编程题库时，它能给出带详细解释的正确解法。
STEM教育辅导：物理、化学、生物等理科问题的逐步推导，它都能从容应对。
边缘端推理部署：由于仅有3B参数，手机、IoT设备等低算力环境也能顺畅运行。
推理能力研究：作为小模型推理上限的探索基准，为学术界研究Scaling Law的替代路径提供了重要参考。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：微博开源30亿参数密集推理模型VibeThinker-3B要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai-bot.cn/vibethinker-3b/

推理模型

上一篇：贾扬清出走英伟达，20亿AI Infra收购一年折戟

下一篇：OceanBase发布AI数据库一套引擎融合湖仓与多模态数据

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本周Lorna基于CFMS数据驱动决策的投资平台 03 / 本周前街购买记录追踪查询方法 04 / 本周一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本周人工智能股票预测与多金融工具交易信号

01 / 本月AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本月Lorna基于CFMS数据驱动决策的投资平台 03 / 本月前街购买记录追踪查询方法 04 / 本月一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本月人工智能股票预测与多金融工具交易信号

热点快看

06-30 19:04AI驱动的Degiro投资组合跟踪与可视化工具 06-30 19:04Lorna基于CFMS数据驱动决策的投资平台 06-30 19:03前街购买记录追踪查询方法 06-30 19:03一款专业Finta AI驱动筹款助手，高效智能募资工具 06-30 19:03人工智能股票预测与多金融工具交易信号

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别