DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破
9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的研究论文《DeepSeek-R1推理模型》登上了《自然》(Nature)杂志封面。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究人员在论文中表示,DeepSeek强大的AI模型R1之所以能够取得成功,并不依赖于使用竞争对手的输出内容进行训练。今年初,R1的发布曾引发美国股市震荡。这一声明出自今天发表于《自然》杂志的一篇经过同行评议的R1模型论文的附件文件中。
R1专注于出色完成数学和编程等推理任务,是美国科技公司所开发工具中更具性价比的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载使用,它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。
这篇论文是对今年一月发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2024年起已被禁止向中国销售。
严格的同行评审
R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”
为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”
DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类比推理策略,例如如何在未遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估计值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。
孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”
关于训练方式的争议
今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。
DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。
孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。
孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。
坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类比推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2026 年清明档总票房破 3 亿,《超级马力欧银河大电影》领跑
2026清明档票房观察:经典IP领跑,市场热度超预期 假期刚过,电影市场的“春温”就体现在了数据上。根据猫眼专业版的最新统计,截至4月6日晚上7点49分,今年清明档(4月4日至6日)的总票房已经突破3亿元大关。这个数字背后,是假期观影热情的集中释放,也折射出当前市场的一些有趣动向。 票房榜排位:合家
2026 年清明假期进入尾声,小车高速免费通行今晚 24 时截止
清明假期返程高峰来临:高速免费今晚截止,这份避堵省钱攻略务必收藏 清明小长假即将结束,全国高速路网从今天起正式进入返程客流高峰。对于广大自驾返程的车主而言,有一个至关重要的时间节点需要牢记:根据国家规定,2026年清明假期高速公路对小客车(7座及以下)的免费通行政策,将于今天(4月6日)晚上24时准
消息称三星电子泰勒逻辑厂启动光刻机调试,平泽 DRAM 厂下达设备订单
三星半导体扩产提速:泰勒厂光刻机调试中,平泽P4大单落地 这波AI浪潮带来的算力饥渴,正在倒逼半导体巨头们把油门踩到底。最近几天,两家韩国主流媒体《edaily》和《ZDNET Korea》接连曝光了三星电子半导体部门的最新动作,指向非常明确:无论是面向未来的先进逻辑芯片,还是眼下火热的存储产品,三
今日清明节:气清景明,万物皆显
今日清明节:气清景明,万物皆显 转眼又到了四月五日,今天的日子有些特别——它既是二十四节气中的“清明”,也是中国人最重要的传统节日之一。提起清明,那句“清明时节雨纷纷,路上行人欲断魂”便自然而然地浮现在脑海。其实,这个节日的内涵远比我们想象的要丰富:它既有慎终追远的肃穆,也饱含拥抱春天的欢愉。 清明
一季度涨价 1 倍后,消息称三星电子将第二季度 DRAM 价格再提高 30%
一季度涨价1倍后,消息称三星电子将第二季度DRAM价格再提高30% 进入4月,有个挺有意思的现象:市面上部分DDR5内存条的价格,比起前几个月确实松动了一些。但如果你认为内存市场的“高温”就此要降温,那可能还是太乐观了。就在零售端出现小幅波动的同时,供应链上游却正在上演另一番景象——据韩媒ETNew
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

