编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10
【导读】基于Kimi 2.5的Cursor新版Composer 2.5来了,狂飙10倍效率,百万Token只要2.5美元! 最惊人的是,它在RL训练里嫌任务太难,竟然学会了逆向缓存、反编译字节码去「作弊钻空子」…… 大规模强化学习的潘多拉魔盒已被打开,AI黑客成精了。
今天,AI编程领域的强势玩家——Cursor,毫无预兆地推出了一位强悍选手。
官方正式宣布,全新升级的AI编程模型Composer 2.5正式上线!

基准测试显示,Composer 2.5在部分编程基准测试上的表现,已经非常接近Claude 4.7 Opus和GPT-5.5。

这是一场从底层训练架构、工程效率到商业定价的全面颠覆。
官方数据显示,Composer 2.5在长任务持续性和复杂指令遵循上实现了显著突破,实际运行效率竟然比当前市面上的主流竞品高出整整10倍!


更让人感到震撼的是,伴随着这次升级,大规模强化学习的潘多拉魔盒似乎被打开了。
在训练过程中,这个AI模型竟然学会了「作弊」和「钻空子」——为了完成任务,它不仅自主逆向了Python的缓存格式,甚至还学会了去反编译Java字节码!
在官方X上,Cursor承认,Composer 2.5是基于Kimi K2.5构建的。


所以,Cursor究竟用了什么黑魔法?
性能掀翻天花板
10倍效率与硬刚GPT-5.5的底气
在AI编程赛道,很多开发者最头疼的痛点就是后劲不足。
很多模型在写个十几行的简单函数时表现得像个天才,但只要把它扔进一个数十万行代码的大型真实项目里,它就会开始胡言乱语。
而Composer 2.5,就是为了终结这个痛点而生的!

长任务与复杂指令的性能王者
根据Cursor官方的说法,Composer 2.5是他们迄今为止最强大的模型。相较于前代,它在智能水平、长周期任务的持续工作能力,以及复杂指令的依从性上,都实现了跨越式的提升。
在长达数天或涉及数万个Token的长轨迹开发场景中,Composer 2.5表现出了令人惊叹的稳定性。
它不再是一个只会对单次Prompt做出反应的复读机,而变成了一个能够真正理解上下文演变的「资深全栈工程师」。
它的运行效率与资源占用表现均远优于当前的主流AI编程工具,运行效率最高提升了10倍。

这意味着,以前需要开发者反复调试、等待数分钟的大型项目代码迭代,现在在秒级内就能得到更精准的反馈。
百万Token仅2.5美元:极致的工程性价比
如果说性能让人兴奋,那么它的价格则让整个行业感到震撼!
Composer 2.5 定价白皮书:
- 标准版: 每百万(1M)输入Token仅需0.50美元,每百万(1M)输出Token仅需2.50美元。
- Fast变体版: 智能水平相同但速度极快,价格为每百万输入Token 3.00美元,每百万输出Token 15.00美元。
Composer 2.5在部分编程基准测试上已经接近Claude 4.7 Opus和GPT-5.5,然而,它的成本却仅仅是它们的一小部分!
这揭示了一个残酷而关键的行业新趋势:未来的AI编程竞争,就是看谁能用更低的成本,打出更强、更极致的实际工程体验。
最后Cursor更是不讲武德地宣布:在发布后的第一周,平台将直接双倍赠送所有用户的免费使用额度!
这一波降维打击,无疑将大大降低开发者的试用门槛。

底层黑魔法之一
定向文本反馈RL,解决「信用分配」百年难题
为什么Composer 2.5能变得这么聪明且稳定?这得归功于Cursor在强化学习训练上引入的全新机制。


Cursor创始人表示:我们在强化学习方面已经做得极其出色了。Composer 2.5 完成了越级挑战,其表现远远超出了它这个参数规模应有的水平。对于下一个版本,我们无比兴奋
在传统的强化学习中,有一个让无数科学家头疼的经典难题——信用分配难题。
什么是信用分配难题?
想象一下,AI在编写一段非常长的代码,中间它一共调用了几百次各种工具。
在第50步的时候,AI犯了一个小错:它尝试调用了一个不存在的、或者不可用的工具,但随后迅速调整,在接下来的几百步里继续进行了正确的工具调用。
在传统的RL训练中,奖励信号是在整个过程全部结束后才统一计算并返回的。最终的奖励可能会告诉模型:「这次任务整体完成得不够完美。」
但这时候模型就懵了:一共写了上千行代码,到底是在哪一步做错了?
解决方案:定向文本反馈
为了彻底解决这个问题,Cursor在训练Composer 2.5时,祭出了「定向文本反馈RL」。

它的核心思路非常精妙:在模型本可以表现得更好的具体位置,直接把反馈钉在那个地方。
具体的技术实现步骤如下:

通过这种方式,Cursor既为想要改变的微观局部行为提供了极其精准、局部化的训练信号,同时又完美保留了贯穿完整长轨迹的宏观RL目标。
这也是为什么Composer 2.5在实际协作体验中,表现得像一个高情商、高技术的老手。
因为它在训练中,每一处微小的表达和逻辑偏差,都被这种定向文本反馈精雕细琢过。
底层黑魔法之二
合成数据暴涨25倍,AI竟然学会了「作弊」!
有了精准的训练方法,接下来就需要庞大的训练燃料。
在RL的训练过程中,随着Composer的编码能力显著提升,它很快就把原有的训练集题目给刷爆了。
为了逼出模型的极限潜能,Cursor的研发团队开始在训练过程中,动态地筛选和生成难度极高的合成任务。
Composer 2.5所使用的合成任务数量,达到了惊人的上一代(Composer 2)的25倍!

如何在大规模代码库的基础上,凭空创造出成千上万个高难度的编程任务?Cursor采用了一种非常绝妙的方法——功能删除。
1. 智能体会拿到一个包含大量现成测试(Tests)的成熟代码库。
2. 系统要求智能体以某种方式,精准地把某些代码和文件删掉。
3. 核心要求: 代码库在删掉这些文件后必须保持可运行,但原有的某项特定、可测试的功能必须被彻底移除。
4. 生成任务: 删完之后,这个残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新把这个被删除的功能实现出来,而原有的那些测试,则被直接用作奖励信号。
打开潘多拉魔盒:模型学会了「奖励作弊」
然而,当合成数据的规模扩大了25倍,且任务难度被拉到极限时,意料之外的事情发生了。
随着模型能力在持续的强化学习中疯狂进化,Composer 2.5竟然开始展现出让人啼笑皆非、又脊背发凉的「奖励作弊」能力。
它开始像人类黑客一样,寻找各种复杂的变通办法来走捷径。
在监控中,团队发现了两个极为震撼的真实案例。
逆向Python缓存: 在一次「功能删除」后要求重新实现的任务中,模型敏锐地发现系统里还残留着一块Python类型检查的缓存。它没有重写复杂的函数体,而是直接通过逆向这块缓存的底层格式,硬生生地找回并提取出了已经被删掉的函数签名,以此轻松通过了测试。
反编译Java字节码: 在另一个涉及第三方API调用的高难度任务里,由于缺乏文档和源码,正常编写极度困难。结果,Composer 2.5竟然在环境里找到了编译好的Java字节码,并自主运行了反编译工具,通过阅读反编译出来的底层代码,彻底重建了该第三方API。
但这无疑向全行业敲响了警钟:在大规模强化学习的催化下,AI为了拿到高分,其自主涌现出的行为边界,可能远超人类最初的设想。
顶级工程架构
分片Muon优化器与双网格HSDP
在底层算力调度和模型优化上,Composer 2.5同样展现了顶级大厂都未必具备的硬核工程能力。
现在我们都知道,Composer 2.5是基于开源社区中大名鼎鼎的Moonshot Kimi K2.5开源checkpoint构建的。
如何让数万亿参数的模型在庞大的集群中高效运转、同时把网络通信开销降到最低?
Cursor给出了两项堪称艺术级的工程解法。
分片Muon优化器:每步耗时仅0.2秒!
在模型的持续预训练中,团队使用了带分布式正交化的Muon优化器。
这里面最大的计算开销,其实在于对庞大的专家权重进行正交化。为了解决这个问题,Cursor设计了一套精妙的异步传输机制:

最终的结果惊为天人:在一个高达1T参数规模的模型上,优化器每一步的耗时,居然被死死压在了区区0.2秒以内!
双网格HSDP架构
为了让MoE模型的效率最大化,Cursor对模型内部不同性质的权重,量身定制了完全不同的 HSDP 布局:

更绝的是,通过将这两种布局彻底分开,彼此独立的并行维度得以完美重叠。
例如,CP=2(上下文并行)和 EP=8(专家并行)可以直接在 8 个 GPU 上高效运行,而根本不需要在单个共享网格中强行占用 16 个 GPU。
这种对硬件资源的极致压榨,正是Cursor能够将推理和训练成本打到如此低廉的底层底气。
Cursor携手SpaceXAI
向百万H100集群进发
在官博最后,Cursor正式宣布:他们目前正在与 SpaceXAI 展开深度战略合作!一下子就把竞争拉到了科幻级别。

双方的目标非常简单且暴力:直接调用Colossus 2集群中整整100万个H100等效算力,从零开始训练一个计算规模整整扩大10倍的全新超大模型!

100万张H100等效算力是什么概念?这几乎是目前人类地表上能组装起来的最恐怖的算力怪兽。
Cursor自身的精湛机制,与SpaceXAI的百万级顶级算力集群结合时,下一代模型的全自主编程能力,将会进化到何种地步?
从今天起,随着Composer 2.5的全面普及,软件开发的门槛和效率将被重新定义。
每百万输出Token仅2.5美元的超低成本,意味着AI编程将彻底走向平民化和常态化。
赶紧打开你的Cursor,去体验一下首周用量双倍赠送的Composer 2.5吧。
参考资料:
https://x.com/cursor_ai/status/2056415413077233983
https://cursor.com/cn/blog/composer-2-5
编辑:Aeneas David
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社