当前位置: 首页
业界动态
DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破

DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破

热心网友 时间:2025-12-02
转载

9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的研究论文《DeepSeek-R1推理模型》登上了《自然》(Nature)杂志封面。


研究人员在论文中表示,DeepSeek强大的AI模型R1之所以能够取得成功,并不依赖于使用竞争对手的输出内容进行训练。今年初,R1的发布曾引发美国股市震荡。这一声明出自今天发表于《自然》杂志的一篇经过同行评议的R1模型论文的附件文件中。

R1专注于出色完成数学和编程等推理任务,是美国科技公司所开发工具中更具性价比的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载使用,它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。

这篇论文是对今年一月发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2024年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类比推理策略,例如如何在未遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估计值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”

关于训练方式的争议

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类比推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

来源:https://www.163.com/tech/article/K9NNM06500097U7T.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
MOVA扫地机器人全球负责人宣布2026年营收目标将达百亿

MOVA扫地机器人全球负责人宣布2026年营收目标将达百亿

MOVA扫地机全球负责人透露,公司2026年营收目标为60亿至70亿元,并冲击百亿规模。他认为市场最终将仅存三四家主要企业,头部品牌集中度超80%。MOVA与英伟达开展生态合作,自研芯片专注硬件,英伟达提供AI框架支持。公司还计划未来量产飞行清洁机器人,将其定位为智能终端,拓展高空清洁等应用场景。

时间:2026-05-23 21:32
大疆Osmo Pocket 4日本上市9天销量夺冠 市场份额超七成

大疆Osmo Pocket 4日本上市9天销量夺冠 市场份额超七成

大疆OsmoPocket4在日本上市仅9天便登顶摄像机销量冠军,并助力品牌拿下当月72 5%的市场份额。该新品占据4月全日本摄像机市场21 5%的销量,其火爆表现带动市场整体销量与销售额同比激增。销量榜前四名均被大疆包揽,凸显其在日本便携影像市场的统治地位。

时间:2026-05-23 21:32
联想极光GM11 Pro无线鼠标评测:618键鼠耳机联动桌面套装推荐

联想极光GM11 Pro无线鼠标评测:618键鼠耳机联动桌面套装推荐

618选购游戏外设时,除了关注单品参数,更应考虑设备间的协同体验。联想极光系列通过统一的服务方案,将键盘、鼠标、耳机和鼠标垫整合为生态。设备间可实现光效联动与集中管理,打造视觉统一、操作便捷的桌面系统,提升长期使用的舒适度与整体感。

时间:2026-05-23 21:32
GTA6数字营销新策略:虚拟角色入驻社交平台,2026年11月全球发售

GTA6数字营销新策略:虚拟角色入驻社交平台,2026年11月全球发售

Rockstar Games已正式启动《GTA6》的全球宣发引擎。其母公司Take-Two Interactive官方宣布,这款备受期待的游戏大作将于2026年11月19日全球同步上市。随着发售日期的临近,一个核心议题备受关注:对于如此规模的顶级游戏,究竟需要怎样的营销策略才能与之相称? 近期,知名

时间:2026-05-23 21:32
小鹏Mona L03正式上市 紧凑型纯电轿跑SUV价格公布

小鹏Mona L03正式上市 紧凑型纯电轿跑SUV价格公布

小鹏汽车MonaL03已启动预热,定位紧凑型纯电轿跑SUV,预计售价约十五万元。新车延续家族设计,提供丰富个性化选装,搭载183千瓦电机,CLTC续航预计500-650公里。全系标配VLA2 0辅助驾驶系统,高配版算力达1500TOPS,瞄准主流年轻市场。

时间:2026-05-23 21:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程