DeepSeek新版上线:揭秘奥数金牌解题能力的技术内幕
2025年11月28日
本文共计1072字,阅读时间约2分钟
作者 | 第一财经 刘晓洁
11月27日晚间,DeepSeek悄然在Hugging Face平台开源了全新模型——DeepSeek-Math-V2。这款专注于数学领域的模型,堪称行业首个达到国际奥林匹克数学竞赛金牌水准并开放源代码的AI。
在同步发布的技术论文中,DeepSeek透露,Math-V2在部分关键指标上超越了谷歌旗下Gemini DeepThink,并在IMO-ProofBench基准测试及近期数学竞赛中展现出卓越性能。
具体来看,在基础基准测试中,DeepSeek-Math-V2以接近99%的超高得分遥遥领先其他模型,而位列第二的谷歌Gemini DeepThink (IMO Gold)得分仅为89%。不过在难度更高的高级子集中,Math-V2获得61.9%的分数,略低于Gemini DeepThink (IMO Gold)的65.7%。
在这篇题为《DeepSeek Math-V2:迈向可验证的数学推理》的论文中,研究团队指出,大语言模型在数学推理领域取得的重要突破,标志着人工智能发展进入新阶段。若持续推进,或将深刻影响科学研究范式。
然而当前AI在数学推理方面仍面临技术瓶颈:以最终答案正确与否作为评判标准,但正确答案未必代表推理过程的严谨性。特别是数学定理证明等任务,需要严密的逐步推导而非简单数字答案,这使得传统奖励机制难以适用。
为突破深度推理的极限,DeepSeek认为有必要验证数学推理的完整性与严谨性。团队特别强调,自我验证对于延长测试时间的计算尤为关键,特别是那些尚未存在已知解决方案的开放性问题。
此次推出的Math-V2实现了从结果导向到过程导向的重要转变,展现出强大的定理证明能力。该模型不依赖大量数学题答案数据,而是通过教导AI如何像数学家一样严谨审查证明过程,从而在无人干预的情况下持续提升解决高难度数学证明题的能力。
论文中提到,Math-V2在IMO 2025和中国数学奥林匹克2024中取得金牌级成绩,并在Putnam 2024竞赛中通过扩展测试实现了接近满分的优异表现(118/120)。
DeepSeek表示,虽然仍有诸多挑战需要攻克,但这些成果表明,可自我验证的数学推理是一个可行的研究方向,有望助力开发更强大的数学AI系统。
对于DeepSeek此次发布的模型,海外社区反响热烈,网友戏称“巨鲸终于归来”。有评论感慨,DeepSeek以十个百分点的显著优势击败了谷歌的IMO金牌模型DeepThink,这一成就超出业界预期。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对会推出编程模型。”
当前,头部厂商的模型迭代已进入新一轮竞争周期。11月以来,先是OpenAI发布了GPT-5.1,几天后xAI推出Grok 4.1,紧接着上周谷歌发布Gemini 3系列引爆AI圈,“这回该轮到DeepSeek出手了”。不过,更受业界关注的仍是DeepSeek旗舰模型的更新计划,行业正期待着“巨鲸”的下一步动作。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
联想IdeaPad Slim 5i轻薄本发布 新款笔记本性能与便携兼备
联想推出新款轻薄本IdeaPadSlim5i,搭载英特尔最新处理器,配备15英寸高刷新率屏幕。机身采用铝合金材质,提供两种电池容量选择,接口齐全且支持PD快充。整机重约1 49公斤,便于携带,具体售价和上市时间尚未公布。
嫦娥七号下半年发射计划公布 后续将开展梦舟飞船揽月着陆器首飞任务
中国深空探测战略升级,载人航天与嫦娥工程整合为“月球探测工程”。长征十号火箭与梦舟飞船完成关键试验,为可重复使用天地往返系统奠定基础。嫦娥七号探测器计划下半年发射,将对月球南极进行综合探测。后续将验证梦舟飞船与揽月着陆器,全力推进2030年前实现载人登月目标。
苹果A3577认证曝光 预计为Beats新款蓝牙头戴耳机
一款型号为A3577的苹果蓝牙头戴式耳机在FCC认证文件中曝光,具体规格与设计尚未披露。外界猜测其可能属于Beats系列,例如即将更新的StudioPro迭代产品,主要依据是该系列产品已近三年更新周期,市场期待其在音质与降噪等方面有所提升。
告别价格战中国车市迎来高质量发展新阶段
车市价格战正处微妙临界点。二季度起,一股与以往降价潮不同的涨价暗流开始酝酿。截至五月中旬,至少15家主流新能源品牌已释放调价信号,或直接涨价,或收紧优惠,涉及比亚迪、特斯拉、蔚来等传统及新势力车企。
谷歌上诉称搜索成功源于创新而非排他协议
谷歌就反垄断裁决提起上诉,辩称其市场地位源于产品创新与持续投资,而非排他协议。谷歌强调与苹果的默认搜索协议是商业自主选择,未损害竞争,用户可自行更改搜索引擎。上诉旨在撤销要求其开放数据、分发竞品结果的整改措施。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

