数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

手机教程

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

热心网友时间：2025-04-22

转载

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

新智元报道

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

编辑：编辑部 HNYZ

【新智元导读】近日，斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B，性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

32B推理模型，仅用1/8数据，与同尺寸DeepSeek-R1打成平手！

就在刚刚，来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B，并同时开源了高达114k的训练数据。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

项目主页：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现：采用经DeepSeek-R1验证标注（基于R1蒸馏）的大规模优质数据集，便可训练出SOTA的推理模型。

具体方法，就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的OpenThinker-32B，在数学、代码和科学等多个基准测试中，OpenThinker-32B性能直接碾压了李飞飞团队s1和s1.1模型，直逼R1-Distill-32B。

值得一提的是，相比于使用了800k数据（包含600k个推理样本）的R1-Distill，OpenThinker-32B仅用了114k数据，就能拿下几乎同等的优异成绩。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

结果均通过开源评估框架Evalchemy计算得出

除此之外，OpenThinker-32还把模型权重、数据集、数据生成代码、训练代码上，全部都给公开了！

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

数据策展

研究人员使用了与之前训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B。

他们利用DeepSeek-R1模型，收集了精心挑选的17.3万个问题的推理过程和解答尝试。然后将这些原始数据作为OpenThoughts-Unverfied-173k数据集公开发布。

整个流程的最后一步是，如果推理过程未能通过验证，就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示，这些内容可以来自不同的领域和平台，如BAAI/TACO、DeepMind、Python提交等，涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块——DeepSeek-R1，在这里对数据进行分析与处理。这些问题会被分成三个方面，分别是：科学类问题、数学与谜题和代码。

有些结果不需要验证，可能是简单的分析或直接输出。对于一些需要深入验证的内容，利用大语言模型（LLM）采用与GT（Ground Truth）对比的方式进行评判。如果是代码，执行代码并进行单元测试，确保代码的正确性和有效性。

最后能将不同方向的结果结合起来，生成开放的思考和更为综合的解决方案。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

研究团队更新了最终的OpenThoughts-114k数据集，加入了一个名为「metadata」的配置，其中包含了一些用于数据集构建的额外列：

problemground_truth_solutiontest_cases (code only)starter_code (code only)DeepSeek_reasoningDeepSeek_solutiondomainsource

这些额外的元数据将使得这个数据集更容易用于新的场景，例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易，仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

代码语言：javascript代码运行次数：0运行复制

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

登录后复制

研究团队表示，他们期待看到社区利用这些问题和标准答案，在OpenThinker模型上进行强化学习（RL）的研究。DeepScaleR已经证明，规模较小时，这种方法效果特别好。

验证

为了得到最终的OpenThoughts-114k数据集，研究团队对答案进行了验证，并剔除了不正确的回答。

如下表所示，保留那些未通过验证的推理过程可能会损害性能，尽管未经验证的模型与其他32B推理模型相比仍然表现良好。

验证的作用在于，在扩大训练提示集的多样性和规模的同时，保持R1注释的质量。另一方面，未经验证的数据可以更容易地扩展，因此也值得进一步探索。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

对于代码问题，我们通过对照已有的测试用例来验证解答尝试，从而完成推理过程的验证。

受到代码执行过程中所面临挑战的启发，我们在Curator中实现了一个代码执行框架，使用户能够大规模、安全地执行代码，并对照预期输出进行验证。

对于数学问题，研究团队使用一个LLM（大语言模型）评判器来进行验证，它会同时接收标准答案和DeepSeek-R1的解答尝试。

结果发现，在数据生成过程中，使用LLM评判器而不是更严格的解析引擎（Math-Verify）进行验证，可以获得更高的有效数据率，并能训练出性能更好的下游模型。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

训练

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct在OpenThoughts-114k数据集上进行了三轮微调，上下文长度为16k。完整训练配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四个8xH100 P5节点训练了90小时，累计使用了2,880个H100小时。

同时，OpenThinker-32B-Unverified在Leonardo超级计算机上使用96个4xA100节点（每个GPU64GB）训练了30小时，累计使用了11,520个A100小时。

评估

研究团队使用开源评估库Evalchemy（炼金术）对所有模型进行评估。

对于AIME24和AIME25，他们通过平均五次运行的结果来计算准确率。评估配置使用0.7的温度参数，将模型响应限制在32,768个token以内，不添加任何额外的系统或用户提示词，也不使用任何特殊的解码策略（如预算强制）。

当启动OpenThoughts项目时，他们设定了一个目标，即创建一个性能可以达到DeepSeek-R1-Distill-Qwen-32B的开放数据模型。

现在这个差距已经几乎消除。

最后，研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋，并期待基于彼此的洞见继续向前发展。

OpenThinker-32B的开源，证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

这一成果不仅推动了开源推理模型的发展，也为整个AI社区提供了宝贵的资源和启示。

参考资料：

https://x.com/NeginRaoof_/status/1889739171826377008

来源:https://www.php.cn/faq/1285865.html

上一篇：超详细，DeepSeek 接入PyCharm实现AI编程！（支持本地部署DeepSeek及官方DeepSeek接入），建议收藏！

下一篇：如何在Chrome上更改标签内存节省时间（预览）?

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

IPHONE13 MINI 省电设置与电池保养教程

IPHONE13 MINI 省电设置与电池保养教程

优化显示与亮度设置屏幕是智能手机的耗电大户，对于iPhone 13 mini这样机身紧凑、电池容量相对有限的机型，合理调整显示设置能有效延长续航。首先，建议开启“自动亮度调节”功能，让系统根据环境光线自动调整屏幕亮度，避免在暗光环境下使用过高亮度造成电量浪费。其次，可以适当缩短“自动锁定”的时间，例

时间：2026-04-18 21:05

如何为 IPHONE13 MINI 选择合适的手机壳

如何为 IPHONE13 MINI 选择合适的手机壳

理解iPhone 13 Mini的独特定位在智能手机普遍追求大屏的今天，iPhone 13 Mini以其精致小巧的机身和完整的旗舰性能，成为了一款独特的产品。它的设计初衷是为那些偏爱单手操作、追求便携性的用户提供选择。因此，为它选择手机壳时，首要考虑的就是不能违背其“小巧轻便”的核心优势。一个过于厚

时间：2026-04-18 21:03

IPHONE13 MINI 人像模式摄影实战技巧

IPHONE13 MINI 人像模式摄影实战技巧

人像模式的核心原理与适用场景人像模式并非高端旗舰机专属，即便是iPhone 13 mini这类紧凑型设备，也能拍出惊艳的虚化人像。其核心原理在于通过多摄像头协同与智能算法，模拟专业单反相机的大光圈浅景深效果，精准分离主体与背景，实现自然的背景虚化。该功能主要依赖广角与超广角镜头组配合先进的机器学习模

时间：2026-04-18 21:00

nexus 5x 怎么下载和安装？完整入门说明

nexus 5x 怎么下载和安装？完整入门说明

Nexus 5X下载安装前的准备工作与官方渠道在着手为您的Nexus 5X下载应用或系统更新前，充分的准备工作能有效保障整个流程顺畅无阻。首要任务是确保设备拥有充足的电量，建议电量高于50%，并连接至稳定、高速的Wi-Fi网络，以防大文件下载中途中断。其次，明确您的核心需求：是获取某个特定应用程序，

时间：2026-04-18 20:42

nexus 5x 教程：安装、配置与使用步骤

nexus 5x 教程：安装、配置与使用步骤

准备工作与解锁引导程序在开始为Nexus 5X安装新系统或进行深度配置之前，充分的准备工作是确保流程顺利的关键。首先，请确保电脑已安装好必要的驱动程序，特别是Google USB驱动，以便设备能够被电脑正确识别。其次，至关重要的一步是备份手机中的所有个人数据，包括联系人、照片、应用数据等，因为后续步

时间：2026-04-18 20:39

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

ALERTJS 基础入门：替换原生 alert 的简单方法

《AC黑旗RE》发售日已定？权威外媒直指7月9日

centos 6.5 常见问题：报错原因与处理办法

实战案例：在电商项目中应用 number_format 展示价格

中国临床循证智能能力建设计划启动，医渡智循亮相中关村论坛年会

centos 6.5 和常见方案有什么区别

如何使用 ALERTJS 创建自定义浏览器弹窗

解决 ALERTJS 在移动端样式兼容性问题

以每月1美元的价格获取两个月的Paramount+ Premium无广告订阅服务

centos 6.5 实战：从示例到项目落地

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan

大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan 发布于 2026-04-18

《王者荣耀世界》云缨角色介绍

《王者荣耀世界》云缨角色介绍发布于 2026-04-18

崩坏星穹铁道狼尊值不值得抽崩铁狼尊培养与抽取建议

崩坏星穹铁道狼尊值不值得抽崩铁狼尊培养与抽取建议发布于 2026-04-18

风之国世界试炼神殿风之国世界试炼神殿玩法机制与通关攻略详解

风之国世界试炼神殿风之国世界试炼神殿玩法机制与通关攻略详解发布于 2026-04-18

案件大师追踪小丑关卡怎么通关

案件大师追踪小丑关卡怎么通关发布于 2026-04-18

《红色沙漠》暴击齿轮获得攻略-暴击齿轮获取方法详解

《红色沙漠》暴击齿轮获得攻略-暴击齿轮获取方法详解发布于 2026-04-18

燕云十六声烧饼相关成就怎么达成

燕云十六声烧饼相关成就怎么达成发布于 2026-04-18

明末渊虚之羽离火爆燃流构筑怎么分享

明末渊虚之羽离火爆燃流构筑怎么分享发布于 2026-04-18

xbox one 游戏教程：常见用法与操作步骤

xbox one 游戏教程：常见用法与操作步骤发布于 2026-04-18

xbox one 游戏常见问题与处理办法汇总

xbox one 游戏常见问题与处理办法汇总发布于 2026-04-18

热门格斗手游推荐 2026爆火的格斗游戏分享

热门格斗手游推荐 2026爆火的格斗游戏分享发布于 2026-04-17

xbox one 游戏实际使用记录与经验整理

xbox one 游戏实际使用记录与经验整理发布于 2026-04-17

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略发布于 2026-04-17

ps4 xbox one 是什么？基础说明与使用场景

ps4 xbox one 是什么？基础说明与使用场景发布于 2026-04-17

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！发布于 2026-04-17

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达发布于 2026-04-17

ios12正式版是什么？基础说明与使用场景

ios12正式版是什么？基础说明与使用场景发布于 2026-04-18

ios12正式版常见问题与处理办法汇总

ios12正式版常见问题与处理办法汇总发布于 2026-04-18

ios12正式版使用前要了解哪些关键差异

ios12正式版使用前要了解哪些关键差异发布于 2026-04-18

centos下载怎么下载和安装？完整入门说明

centos下载怎么下载和安装？完整入门说明发布于 2026-04-18

centos下载教程：安装、配置与使用步骤

centos下载教程：安装、配置与使用步骤发布于 2026-04-18

centos下载不同版本有什么区别

centos下载不同版本有什么区别发布于 2026-04-18

centos下载实操记录：从安装到正常使用

centos下载实操记录：从安装到正常使用发布于 2026-04-18

ssdtrim 是什么？基础说明与使用场景

ssdtrim 是什么？基础说明与使用场景发布于 2026-04-18

苹果11怎么开机好难开是没电了吗

苹果11怎么开机好难开是没电了吗发布于 2026-04-18

苹果11怎么开机好难开要按多久

苹果11怎么开机好难开要按多久发布于 2026-04-18

喷墨打印机喷头不堵怎么保养？

喷墨打印机喷头不堵怎么保养？发布于 2026-04-18

台式机主板支持sas接口硬盘吗

台式机主板支持sas接口硬盘吗发布于 2026-04-18

直饮机排水口为什么会有水流出？

直饮机排水口为什么会有水流出？发布于 2026-04-18

VisualStudio怎么打开工具箱查看控件-打开工具箱查看控件的详细步骤分享

VisualStudio怎么打开工具箱查看控件-打开工具箱查看控件的详细步骤分享发布于 2026-04-18

车载吸尘器怎么安装使用方法能吸水吗？

车载吸尘器怎么安装使用方法能吸水吗？发布于 2026-04-18

微软听劝！Windows 11初始设置不用等了：终于可以跳过强制更新

微软听劝！Windows 11初始设置不用等了：终于可以跳过强制更新发布于 2026-04-18

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集