# Composer 2.5：重RL后训练的Agentic模型突破

- 来源：AYi (@AYi_AInotes)
- 发布时间：2026-05-19 02:41
- AIHOT 分数：62
- AIHOT 链接：https://aihot.virxact.com/items/cmpbk1hhu180lslnzosc1yq4q
- 原文链接：https://x.com/AYi_AInotes/status/2056445005179265284

## AI 摘要

Cursor发布的Composer 2.5并非全新底座，而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能，单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题，实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准，这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。

## 正文

Cursor 今天发的 Composer 2.5，表面看是常规迭代，
拆开基准图和 blog 之后我整个人都有点懵，

它本质上其实不是一个新模型，更像是把 RL 后训玩到极致的 agentic 怪物，

因为它85% 的算力根本没花在底座上，全都砸在后期魔改上了🤣
同等智能下成本直接砍到对手的十分之一，

最狠的是那张成本-性能曲线，
Composer 2.5 在 CursorBench 3.1 上拿到 63.2%，单任务成本几乎贴着 0 美元那条线，

Opus 4.7 xhigh 要贵一个数量级才能接近，GPT-5.5 medium 也要 2 美元左右，
Terminal-Bench 直接追平 Opus 4.7，

10x 更高效这个感觉不是吹的，

但我觉得这件事真正值得关注的可能不是 benchmark 数字，
而在于他们做对了一件 agentic 里最痛苦的事：就是信用分配，

长 rollout 几千上万 token，global reward 其实根本分不清哪一步错了，
他们的解法叫 textual feedback RL--在出错的 local context 里插极短 hint，让 teacher model 生成正确分布，再用 KL loss 让原模型对齐，
风格、工具调用、解释清晰度，全都能精细调，

这意味着什么，

以前大家迷信谁底座大谁牛，
现在看的是谁敢把 80%+ 算力砸在 RL 和合成数据闭环里，
Kimi k2 只占 7.5%，却把 Opus 和 GPT 打到平手，

Agentic coding 真正的胜负手不在单次 pass@1，
而在于 40 分钟后它还能不能自己恢复状态继续跑，
在于该努力时努力、该偷懒时不浪费 token 的行为校准，
这些东西现有 benchmark 根本测不到，但开发者每天都能感受到，

我觉得这是 Composer 2.5 最被低估的地方，

以后做 agent 的人，得同时建 anti-hacking 监控了--他们用 25x 合成数据后，模型已经聪明到能逆向工程类型缓存、反编译 bytecode 来钻漏洞，reward hacking 可能也不再是 bug，是需要被管理的 emergent behavior，

Cursor 也不再只是 IDE 公司了，
他们和 SpaceXAI 合作，用 Colossus 2 从零训 10x compute 大模型，

垂直整合的时代终于要来了，做编辑器的反向，掌控最上游模型能力，

我觉得真正的差距不在单次 prompt，
而在第 45 分钟它还能不能自己爬起来继续干 hhh

### 引用推文

> Cursor：Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running tasks, and more reliable at following com...