DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破
9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的研究论文《DeepSeek-R1推理模型》登上了《自然》(Nature)杂志封面。

研究人员在论文中表示,DeepSeek强大的AI模型R1之所以能够取得成功,并不依赖于使用竞争对手的输出内容进行训练。今年初,R1的发布曾引发美国股市震荡。这一声明出自今天发表于《自然》杂志的一篇经过同行评议的R1模型论文的附件文件中。
R1专注于出色完成数学和编程等推理任务,是美国科技公司所开发工具中更具性价比的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载使用,它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。
这篇论文是对今年一月发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2024年起已被禁止向中国销售。
严格的同行评审
R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”
为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”
DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类比推理策略,例如如何在未遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估计值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。
孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”
关于训练方式的争议
今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。
DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。
孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。
孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。
坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类比推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
MOVA扫地机器人全球负责人宣布2026年营收目标将达百亿
MOVA扫地机全球负责人透露,公司2026年营收目标为60亿至70亿元,并冲击百亿规模。他认为市场最终将仅存三四家主要企业,头部品牌集中度超80%。MOVA与英伟达开展生态合作,自研芯片专注硬件,英伟达提供AI框架支持。公司还计划未来量产飞行清洁机器人,将其定位为智能终端,拓展高空清洁等应用场景。
大疆Osmo Pocket 4日本上市9天销量夺冠 市场份额超七成
大疆OsmoPocket4在日本上市仅9天便登顶摄像机销量冠军,并助力品牌拿下当月72 5%的市场份额。该新品占据4月全日本摄像机市场21 5%的销量,其火爆表现带动市场整体销量与销售额同比激增。销量榜前四名均被大疆包揽,凸显其在日本便携影像市场的统治地位。
联想极光GM11 Pro无线鼠标评测:618键鼠耳机联动桌面套装推荐
618选购游戏外设时,除了关注单品参数,更应考虑设备间的协同体验。联想极光系列通过统一的服务方案,将键盘、鼠标、耳机和鼠标垫整合为生态。设备间可实现光效联动与集中管理,打造视觉统一、操作便捷的桌面系统,提升长期使用的舒适度与整体感。
GTA6数字营销新策略:虚拟角色入驻社交平台,2026年11月全球发售
Rockstar Games已正式启动《GTA6》的全球宣发引擎。其母公司Take-Two Interactive官方宣布,这款备受期待的游戏大作将于2026年11月19日全球同步上市。随着发售日期的临近,一个核心议题备受关注:对于如此规模的顶级游戏,究竟需要怎样的营销策略才能与之相称? 近期,知名
小鹏Mona L03正式上市 紧凑型纯电轿跑SUV价格公布
小鹏汽车MonaL03已启动预热,定位紧凑型纯电轿跑SUV,预计售价约十五万元。新车延续家族设计,提供丰富个性化选装,搭载183千瓦电机,CLTC续航预计500-650公里。全系标配VLA2 0辅助驾驶系统,高配版算力达1500TOPS,瞄准主流年轻市场。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

