当前位置: 首页
AI教程
VibeThinker-3B小型语言模型探索之旅

VibeThinker-3B小型语言模型探索之旅

热心网友 时间:2026-06-22
转载

VibeThinker-3B是VibeThinker系列在3B参数规模上的最新尝试,聚焦于那些带明确验证信号的挑战性推理任务——数学、编程、STEM领域。通过对VibeThinker-1.5B中引入的频谱到信号原理(SSP)后训练流程做系统化升级,这家伙在AIME、HMMT、IMO-AnswerBench、LiveCodeBench乃至最新的LeetCode竞赛中,成绩亮眼。在可验证推理基准上,它已经能与Qwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5这些顶尖前沿模型掰手腕了。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/e7c8a58e5f3b15490f4af6388743614c.png)

基于这些观察,我们发现一个很有意思的现象——不妨叫它“参数压缩-覆盖假设”:不同的能力,对参数的依赖方式根本不同。可验证推理更像是一种高可压缩、参数密集的能力,核心在于多步推理、约束满足、自我纠正、答案验证。只要任务空间结构足够清晰,反馈信号足够可靠,紧凑模型也能逼近前沿水平。相反,开放域知识、通用对话、长尾场景理解,则高度依赖大参数规模去广泛覆盖事实、概念和世界知识。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/65771e0b3ab41d387e4379678b070224.png)

来看具体数字:VibeThinker-3B只有30亿参数,在IMO-AnswerBench(400个IMO级别问题的硬核基准)上拿到76.4分,借助一项叫Claim-Level Reliability Assessment(CLR,一种针对答案可验证推理的测试时缩放策略)的加持后,进一步提高到80.6分。对比一下:DeepSeek V3.2(6710亿参数)是78.3分,GLM-5(7440亿参数)82.5分,Kimi K2.5(1万亿参数)81.8分。不到3亿分之一的参数量,却跑出了同一梯队水平的分数,这才是关键所在。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3585893e3a314440d6528a8277e79f18.png)

更现实的一点:3B规模的模型,消费级显卡就能跑起来,部署成本和门槛大大降低。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/947406e69d13f509d9eaf786fd0509dc.png)

从VibeThinker-1.5B到VibeThinker-3B,目标从来不是拿小模型去取代大模型,而是沿着特定能力维度,探一探小模型的真正边界。通过VibeThinker-3B,我们想传达一个信号:别再把小模型仅仅看作是降低部署成本的权宜之计。在有明确反馈和验证机制的能力领域,小规模语言模型(SLM)正在成为一条前景广阔的研究路线——性能达到前沿水平,跟传统参数扩展范式形成根本性互补。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/4c89fdba764ff06e39a202233ad18994.png)

这篇技术报告详细介绍了VibeThinker-3B——一个30亿参数的紧凑密集模型,核心目标就是在严格的小模型范围内,看看可验证推理到底能走多远。基于Spectrum-to-Signal后训练范式,通过优化流程系统增强,流程包括课程式有监督微调、多域强化学习、离线自蒸馏。评估结果相当硬核:AIME26上达到94.3分(声明级测试时间缩放后提高到97.1),LiveCodeBench v6上Pass@1得分80.2,在最近未见过的LeetCode竞赛中展现出强大的分布外泛化能力,接受率高达96.1%。这有效踏入了一流推理系统的性能行列,跟DeepSeek V3.2、GLM-5、Gemini 3 Pro等规模大几个数量级的旗舰模型相比,不落下风甚至超出。此外,IFEval上拿到93.4分,证实这种极端的推理增强并非以牺牲指令可控性为代价。这些发现延展了之前15亿参数成果,并催生了参数压缩-覆盖假设:可验证推理可以被压缩成紧凑的推理核心,而开放域知识和通用能力则需要对事实、概念、长尾场景进行广泛的参数覆盖。这一观点表明,紧凑模型并非仅仅是部署高效的替代品,而是在参数密集能力范围内实现前沿水平性能的补充途径。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3aeb7252143dff46f7bbcfa2594d30d9.png)

参考资料:
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140

来源:https://cloud.tencent.com.cn/developer/article/2693680

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
ControlNet Mac电脑的详细完整安装教程:Apple Silicon与Intel配置步骤详解

ControlNet Mac电脑的详细完整安装教程:Apple Silicon与Intel配置步骤详解

ControlNet是常用AI绘画控制插件,macOS安装需区分AppleSilicon与Intel环境,重点处理Python、WebUI、插件目录、模型文件和启动参数,配置前应做好备份并关注版本兼容。

时间:2026-07-05 06:45
Krita AI Diffusion 新手入门从下载安装到首次运行保姆级教程

Krita AI Diffusion 新手入门从下载安装到首次运行保姆级教程

KritaAIDiffusion适合在Krita中完成文生图、图生图和局部重绘。安装重点是确认Krita版本、导入插件、配置本地或远程后端、下载模型,并在首次运行前检查显存、路径和权限。

时间:2026-07-05 06:44
Krita AI Diffusion安装失败?常见报错日志排查与升级回滚方案

Krita AI Diffusion安装失败?常见报错日志排查与升级回滚方案

KritaAIDiffusion安装异常多与版本不匹配、压缩包结构错误、Python插件未启用、后台服务或模型下载失败有关。可通过日志定位原因,按步骤重装、升级或回滚,避免覆盖配置和模型文件。

时间:2026-07-05 06:44
Krita AI Diffusion插件安装全流程教程:浏览器、编辑器、扩展市场

Krita AI Diffusion插件安装全流程教程:浏览器、编辑器、扩展市场

KritaAIDiffusion可将生成式绘图能力接入Krita,适合草图细化、局部重绘和风格探索。安装需确认版本、下载插件、配置后端服务与模型路径,并注意显卡资源、来源安全和版权合规。

时间:2026-07-05 06:44
Krita AI Diffusion API密钥配置教程:账号注册、密钥获取与国内网络设置

Krita AI Diffusion API密钥配置教程:账号注册、密钥获取与国内网络设置

KritaAIDiffusion配置重点在于确认插件版本、完成服务账号注册、创建并保存APIKey,再结合本地代理、证书、下载源与连接测试解决国内网络不稳定问题,避免密钥泄露和误用。

时间:2026-07-05 06:44
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜