月之暗面推出数学推理模型k0-math 性能对标OpenAI o1

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

月之暗面推出数学推理模型k0-math 性能对标OpenAI o1

热心网友时间：2026-05-16

转载

今日，京东科技大厦内一场重磅发布会引发业界瞩目。月之暗面创始人杨植麟正式对外发布了其核心数学模型——k0-math。该模型在数学推理能力上直接对标OpenAI的o1系列，并同步披露了一项关键数据：至2024年10月，其旗下智能助手Kimi的月活跃用户数已超过3600万。

在阐述技术演进方向时，杨植麟着重强调了强化学习的关键作用。他指出，未来的发展重心不应局限于基于静态数据预测下一个词的范式，因为这种方式难以应对日益复杂的任务挑战。真正的突破在于赋予人工智能系统“深度思考”的能力，而强化学习正是实现这一目标的核心技术路径。

这好比解答一道数学难题，其价值不仅在于最终的正确结果，更在于完整的解题思路与严谨的推演步骤。这是一个需要连续、深度思考的过程，而传统的预测模型难以有效捕捉并模拟这种思维链条。

为何选择数学作为首要突破领域？杨植麟援引了伽利略的经典论述——数学是书写宇宙的文字。数学问题场景丰富、逻辑自洽，且无需与复杂多变的外部世界进行实时交互，因而成为锤炼AI推理与思考能力的理想“试炼场”。OpenAI的o1模型也印证了相似的逻辑。k0-math正是从数学这一核心场景切入，旨在首先构建强大的推理引擎，进而将其能力泛化至更广泛的任务领域。

具体来说，当面对一道高难度的数学竞赛题时，k0-math可能会进行大量、多样化的求解尝试。或许在历经八九种不同解法均未直接成功之后，它能够综合先前多种思路的精华，最终融合、推导出一条正确的解题路径。

那么，k0-math的实际性能表现如何？根据公布的基准测试结果，其初代模型的数学能力已可与OpenAI o1系列中已公开的o1-mini及o1-preview模型相媲美。在中考、高考、考研数学以及涵盖基础竞赛题的MATH基准测试中，k0-math取得了领先的成绩。而在难度更高的竞赛级题库OMNI-MATH和美国数学邀请赛（AIME）级别的问题上，其表现也分别达到了o1-mini最佳成绩的90%与83%。

据悉，一个能力更强的强化版k0-math模型将于未来一至两周内，在Kimi探索版中面向用户推出。新版本将重点强化三大特性：用户意图理解增强、信息来源分析以及链式深度思考。

从技术实现角度看，这种深度思考模式带来了新的挑战。在强化学习框架下，模型内部产生的大量“思维过程数据”其有效性与正确性成为核心难题。这与处理固定标注数据的传统预测模式截然不同，对奖励模型的设计与训练提出了更高要求。关键在于如何构建更精准有效的奖励机制，以引导模型高效学习，并尽可能减少对无效或错误思维路径的依赖。

这种机制也衍生出一个有趣的“副作用”——过度思考。例如，当被问及“1+1等于几”这样简单的问题时，k0-math可能会启动一整套复杂的推理流程，最终才得出结论“等于2”。杨植麟解释，这源于当前奖励模型并未对思考长度进行限制，允许模型自由探索。当然，通过优化奖励模型的结构与目标，可以在相当程度上抑制这类不必要的过度思考。

关于用户体验，杨植麟透露，搭载了强化版k0-math的Kimi探索版很可能会为用户提供自主选择是否启用深度思考模式的选项。这种设计在早期有助于更精准地匹配用户实际需求并合理分配计算资源。其背后涉及两项技术考量：一是模型需要智能地动态分配最优算力，如同人类懂得对简单问题无需深思熟虑；二是这是一个需要持续进行成本优化的长期过程。

展望未来，k0-math所锤炼的推理能力将从数学领域出发，逐步拓展并泛化至物理学、化学、生物医学等更多科学计算与逻辑推理场景。

克制与聚焦：月之暗面的产品哲学

回顾过去一年的发展轨迹，月之暗面的步伐清晰而稳健：去年此时，Kimi Chat全面开放服务；今年10月，推出AI搜索功能；直至今日发布k0-math数学模型。三个关键里程碑，恰好走过一整年。

与行业内许多积极扩张的公司相比，月之暗面的产品策略显得尤为克制与聚焦。杨植麟将这种克制归因于主动的“业务减法”。团队始终选择聚焦于那些最接近AGI（通用人工智能）能力上限的挑战，并力求在关键点上做到极致。同时，公司持续追求“算力卡与顶尖人才”配置效率的最大化。

尽管去年整个AI行业经历了大规模的人才与业务扩张，但月之暗面至今仍是头部大模型公司中团队规模最小的之一，总人数控制在200人以内。“我们不希望将团队扩张得过于庞大，规模过大对创新活力是致命的。若想保持团队的敏捷与精干，最好的方式就是在业务方向上做减法。”杨植麟坦言，公司早期也曾尝试过多产品线并行推进，短期或许能看到效果，但最终发现，聚焦于单一核心产品并将其做到极致才是关键。否则，创业公司很容易丧失自身的独特优势，变得与资源雄厚的大型机构无异。

目前，提升Kimi的用户留存率与使用深度是其最核心的产品目标。

预训练仍有潜力，强化学习引领范式变革

面对当前业界关于Scaling Laws（缩放定律）是否已触及天花板的激烈讨论，杨植麟给出了他的判断：预训练技术仍有显著的发展空间，这一潜力预计将在明年被充分释放，领先的模型会将预训练的规模与效果推向极致。

然而，接下来更根本性的变革将来自技术范式层面——即由强化学习所驱动的演进。这本质上依然是一种“能力缩放”，但方法论已截然不同。Scaling Laws是否存在上限，核心取决于数据的使用方式。过去依赖静态、大规模数据集的路径相对直接，而现在通过强化学习，能够结合人类专家的高质量标注（例如，人工精心标注100条高质量数据就能产生巨大的杠杆效应），其余则交由AI进行自主思考与探索。这种“人类智慧引导+AI自主强化”的协同范式，其潜在的能力上限是非常广阔的。

来源:https://www.leiphone.com/category/ai/e2X6O6fDuKQoIKXa.html

上一篇： PPIO亮相WAIC 2025：推出Agentic AI基础设施服务平台

下一篇：前阿里通义视觉负责人薄列峰加盟腾讯混元团队