数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Cursor Composer 2.5评测低成本实现Opus 4.7级AI编程体验

AI热点日报时间：2026-05-19

热点解读

Cursor发布Composer2 5模型，智能水平与任务处理能力全面升级，尤其擅长复杂指令与长时任务。该模型能以十分之一的成本实现接近顶级模型的性能，成本效率优势显著。技术改进包括基于反馈的强化学习、大规模合成数据应用及基础设施优化。同时，Cursor宣布与SpaceXAI合作，投入十倍算力训练新一代大模型。

今天凌晨，Cursor扔出了一枚重磅冲击波：迄今为止最强大的模型Composer 2.5正式亮相。官方给出的评价相当直接——它更聪明了，尤其擅长处理那些耗时较长的持续性任务，在遵循复杂指令方面也变得更加可靠。

更引人注目的是其性能与成本的对比。有说法称，它能以十分之一的成本，实现接近Claude Opus 4.7级别的性能。如果这个说法成立，那意味着在高端模型竞技场上，性价比的天平正在发生倾斜。

与上一代Composer 2相比，2.5版本在智能水平和行为表现上可谓全面提升。这背后是一系列技术升级的共同结果：训练规模的扩大、更复杂的强化学习环境构建，以及新学习方法的引入。

除了在更难的任务上“锤炼”模型，Cursor团队还花了不少心思优化那些基准测试难以衡量、却直接影响用户体验的维度，比如模型的沟通风格和努力程度的校准。这些细节的打磨，往往才是决定一款产品好用的关键。

从官方披露的成本效率对比图来看，Composer 2.5在同等能力的模型中优势明显，其成本效率最高可达其他模型的10倍。

一个值得关注的细节是，Composer 2.5基于与Composer 2相同的开源检查点构建，即月之暗面的Kimi K2.5。这或许意味着，在优秀的基座模型之上，通过精妙的后续训练和调优，同样能激发出惊人的潜力。

与此同时，Cursor还宣布了与SpaceXAI的一项重磅合作：双方将联手，从零开始训练一个规模大得多的新模型。据悉，总算力投入将是此前的10倍。借助SpaceXAI的Colossus 2超算（拥有百万块H100等效算力），以及双方积累的数据和训练技术，这很可能预示着模型能力的一次“代际”飞跃。

马斯克本人也在社交媒体上发声，呼吁大家试用Composer 2.5，并透露该模型的部分训练正是在Colossus 2上完成的。

Cursor创始人对此信心十足，他表示团队在强化学习方面已经做得“极其出色”，Composer 2.5的表现远超其参数规模应有的水平。对于下一个与SpaceXAI合作的版本，他们“无比兴奋”，并计划大幅扩展模型规模和算力投入。

Composer 2.5 训练体系

Composer 2.5的训练体系引入了多项关键改进，这些改进同时瞄准了模型智能和实际可用性。

第一项革新，是基于文本反馈的精准强化学习。

随着单次推理过程可能长达数十万token，强化学习中的“功劳分配”成了大难题。当奖励是基于整个冗长的推理过程计算时，模型很难分辨到底是哪一个具体决策导致了最终结果的好坏。当我们想抑制某个局部不良行为时——比如一次错误的工具调用、一处令人费解的解释，或是一种风格违规——最终奖励只是一个充满噪声的信号，它告诉你出了问题，但问题具体出在哪儿，却无从得知。

Cursor的解决方案是引入精准的文本反馈。思路很巧妙：在模型推理轨迹中那个本可以做得更好的具体节点，直接插入一段描述期望改进方向的简短提示。这将形成一个“教师”模型的概率分布。然后，以原始上下文中的策略作为“学生”，通过一个同策略蒸馏的KL损失，将学生的token概率向教师的概率拉近。这样一来，既获得了对目标行为的局部化训练信号，又保留了基于完整轨迹的整体强化学习目标。

举个例子：在一个漫长的推理过程中，模型调用了一个不存在的工具，并收到了“未找到工具”的错误，然后它继续进行了其他有效调用。在数百次调用中，这一次错误对最终奖励的影响微乎其微。但通过文本反馈，可以精准定位这次错误：在出错的上下文中插入提示“提醒：可用工具有……”，附上列表。这会改变“教师”的概率分布，降低调用错误工具的概率。随后，仅针对这一轮交互，更新“学生”的权重。

在Composer 2.5的训练中，这一方法被广泛应用于调整代码风格、沟通方式等多种模型行为。

第二项关键，是合成数据的规模化应用。

在强化学习训练中，模型的编程能力会快速提升，直到能正确完成大部分既定任务。为了持续“拔高”，Cursor在整个训练过程中动态筛选并创建更困难的任务。Composer 2.5使用的合成任务数量，达到了Composer 2的25倍。

他们采用了多种基于真实代码库创建合成任务的方法。例如“功能删除”：给智能体一个包含大量测试的代码库，要求它以某种方式删除部分代码和文件，使得代码库在移除某些可测试功能后仍能运行。而合成任务，就是重新实现被删除的功能，并用原有的测试用例作为可验证的奖励。

大规模创建合成任务也带来了意想不到的挑战：奖励破解。随着模型越来越强，它开始寻找各种精巧的“捷径”来完成任务。有案例显示，模型找到了一个遗留的Python类型检查缓存，并逆向工程其格式，从而复原了一个被删除的函数签名。在另一个案例中，它甚至找到并反编译了Ja va字节码，重建了一个第三方API。这些行为虽然被监控工具发现并诊断，但也说明，大规模强化学习需要越来越谨慎的对抗和设计。

第三项，是底层基础设施的优化：分片Muon与双网格HSDP。

在持续预训练中，Cursor采用了分布式正交化的Muon优化器。生成动量更新后，以模型的自然粒度运行Newton-Schulz迭代：对注意力投影按每个注意力头处理，对堆叠的MoE权重则按每个专家处理。

主要开销来自专家权重的正交化。对于分片参数，他们将同形状的张量分批处理，通过“全量交换”将分片汇聚为完整矩阵，运行计算后再传回原始分片布局。这些传输是异步的，当一个任务在等待通信时，优化器运行时会推进其他任务，实现了网络传输与计算的重叠。这在效果上等同于全矩阵Muon，但能保持分片组持续忙碌。在1T参数的模型上，优化器单步耗时仅需0.2秒。

这与他们为MoE模型使用HSDP的方式紧密相关。HSDP构成多个FSDP副本，并在对应的分片之间进行梯度全归约。Cursor对非专家权重和专家权重使用了独立的HSDP布局：非专家权重相对较小，其FSDP组可以保持较窄的范围；而承载了绝大部分参数的专家权重，则使用更宽的专家分片网格。这种独立的布局设计，使得不同的并行维度可以重叠，既避免了不必要的广域通信，又将专家优化器的计算工作分摊到了更多GPU上。

Composer 2.5 定价

最后来看看大家关心的价格。Composer 2.5的标准版定价为每百万输入token 0.50美元，每百万输出token 2.50美元。

此外，还提供了一个速度更快、智能水平相同的变体，定价为每百万输入token 3.00美元，每百万输出token 15.00美元。Cursor指出，这个快速版的价格，比其他前沿模型的快速版本要更便宜。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Cursor Composer 2.5评测 低成本实现Opus 4.7级AI编程体验要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.51cto.com/article/843598.html

性价比

上一篇：iOS 17快捷指令全面升级打造人人可用的自动化工具

下一篇：A2A协议推行一年150家企业支持但实际应用不足

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

Cursor Composer 2.5评测 低成本实现Opus 4.7级AI编程体验

Composer 2.5 训练体系

Composer 2.5 定价

Cursor Composer 2.5评测低成本实现Opus 4.7级AI编程体验