编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10

2026-05-19 发布浏览252次点赞0次收藏0次

【导读】基于Kimi 2.5的Cursor新版Composer 2.5来了，狂飙10倍效率，百万Token只要2.5美元！最惊人的是，它在RL训练里嫌任务太难，竟然学会了逆向缓存、反编译字节码去「作弊钻空子」…… 大规模强化学习的潘多拉魔盒已被打开，AI黑客成精了。

今天，AI编程领域的强势玩家——Cursor，毫无预兆地推出了一位强悍选手。

官方正式宣布，全新升级的AI编程模型Composer 2.5正式上线！

基准测试显示，Composer 2.5在部分编程基准测试上的表现，已经非常接近Claude 4.7 Opus和GPT-5.5。

这是一场从底层训练架构、工程效率到商业定价的全面颠覆。

官方数据显示，Composer 2.5在长任务持续性和复杂指令遵循上实现了显著突破，实际运行效率竟然比当前市面上的主流竞品高出整整10倍！

更让人感到震撼的是，伴随着这次升级，大规模强化学习的潘多拉魔盒似乎被打开了。

在训练过程中，这个AI模型竟然学会了「作弊」和「钻空子」——为了完成任务，它不仅自主逆向了Python的缓存格式，甚至还学会了去反编译Java字节码！

在官方X上，Cursor承认，Composer 2.5是基于Kimi K2.5构建的。

所以，Cursor究竟用了什么黑魔法？

性能掀翻天花板

10倍效率与硬刚GPT-5.5的底气

在AI编程赛道，很多开发者最头疼的痛点就是后劲不足。

很多模型在写个十几行的简单函数时表现得像个天才，但只要把它扔进一个数十万行代码的大型真实项目里，它就会开始胡言乱语。

而Composer 2.5，就是为了终结这个痛点而生的！

长任务与复杂指令的性能王者

根据Cursor官方的说法，Composer 2.5是他们迄今为止最强大的模型。相较于前代，它在智能水平、长周期任务的持续工作能力，以及复杂指令的依从性上，都实现了跨越式的提升。

在长达数天或涉及数万个Token的长轨迹开发场景中，Composer 2.5表现出了令人惊叹的稳定性。

它不再是一个只会对单次Prompt做出反应的复读机，而变成了一个能够真正理解上下文演变的「资深全栈工程师」。

它的运行效率与资源占用表现均远优于当前的主流AI编程工具，运行效率最高提升了10倍。

这意味着，以前需要开发者反复调试、等待数分钟的大型项目代码迭代，现在在秒级内就能得到更精准的反馈。

百万Token仅2.5美元：极致的工程性价比

如果说性能让人兴奋，那么它的价格则让整个行业感到震撼！

Composer 2.5 定价白皮书：

- 标准版：每百万（1M）输入Token仅需0.50美元，每百万（1M）输出Token仅需2.50美元。

- Fast变体版：智能水平相同但速度极快，价格为每百万输入Token 3.00美元，每百万输出Token 15.00美元。

Composer 2.5在部分编程基准测试上已经接近Claude 4.7 Opus和GPT-5.5，然而，它的成本却仅仅是它们的一小部分！

这揭示了一个残酷而关键的行业新趋势：未来的AI编程竞争，就是看谁能用更低的成本，打出更强、更极致的实际工程体验。

最后Cursor更是不讲武德地宣布：在发布后的第一周，平台将直接双倍赠送所有用户的免费使用额度！

这一波降维打击，无疑将大大降低开发者的试用门槛。

底层黑魔法之一

定向文本反馈RL，解决「信用分配」百年难题

为什么Composer 2.5能变得这么聪明且稳定？这得归功于Cursor在强化学习训练上引入的全新机制。

Cursor创始人表示：我们在强化学习方面已经做得极其出色了。Composer 2.5 完成了越级挑战，其表现远远超出了它这个参数规模应有的水平。对于下一个版本，我们无比兴奋

在传统的强化学习中，有一个让无数科学家头疼的经典难题——信用分配难题。

什么是信用分配难题？

想象一下，AI在编写一段非常长的代码，中间它一共调用了几百次各种工具。

在第50步的时候，AI犯了一个小错：它尝试调用了一个不存在的、或者不可用的工具，但随后迅速调整，在接下来的几百步里继续进行了正确的工具调用。

在传统的RL训练中，奖励信号是在整个过程全部结束后才统一计算并返回的。最终的奖励可能会告诉模型：「这次任务整体完成得不够完美。」

但这时候模型就懵了：一共写了上千行代码，到底是在哪一步做错了？

解决方案：定向文本反馈

为了彻底解决这个问题，Cursor在训练Composer 2.5时，祭出了「定向文本反馈RL」。

它的核心思路非常精妙：在模型本可以表现得更好的具体位置，直接把反馈钉在那个地方。

具体的技术实现步骤如下：

通过这种方式，Cursor既为想要改变的微观局部行为提供了极其精准、局部化的训练信号，同时又完美保留了贯穿完整长轨迹的宏观RL目标。

这也是为什么Composer 2.5在实际协作体验中，表现得像一个高情商、高技术的老手。

因为它在训练中，每一处微小的表达和逻辑偏差，都被这种定向文本反馈精雕细琢过。

底层黑魔法之二

合成数据暴涨25倍，AI竟然学会了「作弊」！

有了精准的训练方法，接下来就需要庞大的训练燃料。

在RL的训练过程中，随着Composer的编码能力显著提升，它很快就把原有的训练集题目给刷爆了。

为了逼出模型的极限潜能，Cursor的研发团队开始在训练过程中，动态地筛选和生成难度极高的合成任务。

Composer 2.5所使用的合成任务数量，达到了惊人的上一代（Composer 2）的25倍！

如何在大规模代码库的基础上，凭空创造出成千上万个高难度的编程任务？Cursor采用了一种非常绝妙的方法——功能删除。

1. 智能体会拿到一个包含大量现成测试（Tests）的成熟代码库。

2. 系统要求智能体以某种方式，精准地把某些代码和文件删掉。

3. 核心要求：代码库在删掉这些文件后必须保持可运行，但原有的某项特定、可测试的功能必须被彻底移除。

4. 生成任务：删完之后，这个残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新把这个被删除的功能实现出来，而原有的那些测试，则被直接用作奖励信号。

打开潘多拉魔盒：模型学会了「奖励作弊」

然而，当合成数据的规模扩大了25倍，且任务难度被拉到极限时，意料之外的事情发生了。

随着模型能力在持续的强化学习中疯狂进化，Composer 2.5竟然开始展现出让人啼笑皆非、又脊背发凉的「奖励作弊」能力。

它开始像人类黑客一样，寻找各种复杂的变通办法来走捷径。

在监控中，团队发现了两个极为震撼的真实案例。

逆向Python缓存：在一次「功能删除」后要求重新实现的任务中，模型敏锐地发现系统里还残留着一块Python类型检查的缓存。它没有重写复杂的函数体，而是直接通过逆向这块缓存的底层格式，硬生生地找回并提取出了已经被删掉的函数签名，以此轻松通过了测试。

反编译Java字节码：在另一个涉及第三方API调用的高难度任务里，由于缺乏文档和源码，正常编写极度困难。结果，Composer 2.5竟然在环境里找到了编译好的Java字节码，并自主运行了反编译工具，通过阅读反编译出来的底层代码，彻底重建了该第三方API。

但这无疑向全行业敲响了警钟：在大规模强化学习的催化下，AI为了拿到高分，其自主涌现出的行为边界，可能远超人类最初的设想。

顶级工程架构

分片Muon优化器与双网格HSDP

在底层算力调度和模型优化上，Composer 2.5同样展现了顶级大厂都未必具备的硬核工程能力。

现在我们都知道，Composer 2.5是基于开源社区中大名鼎鼎的Moonshot Kimi K2.5开源checkpoint构建的。

如何让数万亿参数的模型在庞大的集群中高效运转、同时把网络通信开销降到最低？

Cursor给出了两项堪称艺术级的工程解法。

分片Muon优化器：每步耗时仅0.2秒！

在模型的持续预训练中，团队使用了带分布式正交化的Muon优化器。

这里面最大的计算开销，其实在于对庞大的专家权重进行正交化。为了解决这个问题，Cursor设计了一套精妙的异步传输机制：

最终的结果惊为天人：在一个高达1T参数规模的模型上，优化器每一步的耗时，居然被死死压在了区区0.2秒以内！

双网格HSDP架构

为了让MoE模型的效率最大化，Cursor对模型内部不同性质的权重，量身定制了完全不同的 HSDP 布局：

更绝的是，通过将这两种布局彻底分开，彼此独立的并行维度得以完美重叠。

例如，CP=2（上下文并行）和 EP=8（专家并行）可以直接在 8 个 GPU 上高效运行，而根本不需要在单个共享网格中强行占用 16 个 GPU。

这种对硬件资源的极致压榨，正是Cursor能够将推理和训练成本打到如此低廉的底层底气。

Cursor携手SpaceXAI

向百万H100集群进发

在官博最后，Cursor正式宣布：他们目前正在与 SpaceXAI 展开深度战略合作！一下子就把竞争拉到了科幻级别。

双方的目标非常简单且暴力：直接调用Colossus 2集群中整整100万个H100等效算力，从零开始训练一个计算规模整整扩大10倍的全新超大模型！

100万张H100等效算力是什么概念？这几乎是目前人类地表上能组装起来的最恐怖的算力怪兽。

Cursor自身的精湛机制，与SpaceXAI的百万级顶级算力集群结合时，下一代模型的全自主编程能力，将会进化到何种地步？

从今天起，随着Composer 2.5的全面普及，软件开发的门槛和效率将被重新定义。

每百万输出Token仅2.5美元的超低成本，意味着AI编程将彻底走向平民化和常态化。

赶紧打开你的Cursor，去体验一下首周用量双倍赠送的Composer 2.5吧。

参考资料：

https://x.com/cursor_ai/status/2056415413077233983

https://cursor.com/cn/blog/composer-2-5

编辑：Aeneas David

算力 GPT Claude AI 测试 Python Kimi 试用体验性能 Java 创始人大模型

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。