Cursor发布的Composer 2.5并非全新底座,而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能,单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题,实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准,这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。
Cursor 今天发的 Composer 2.5,表面看是常规迭代, 拆开基准图和 blog 之后我整个人都有点懵,
它本质上其实不是一个新模型,更像是把 RL 后训玩到极致的 agentic 怪物,
因为它85% 的算力根本没花在底座上,全都砸在后期魔改上了🤣 同等智能下成本直接砍到对手的十分之一,
最狠的是那张成本-性能曲线, Composer 2.5 在 CursorBench 3.1 上拿到 63.2%,单任务成本几乎贴着 0 美元那条线,
Opus 4.7 xhigh 要贵一个数量级才能接近,GPT-5.5 medium 也要 2 美元左右, Terminal-Bench 直接追平 Opus 4.7,
10x 更高效这个感觉不是吹的,
但我觉得这件事真正值得关注的可能不是 benchmark 数字, 而在于他们做对了一件 agentic 里最痛苦的事:就是信用分配,
长 rollout 几千上万 token,global reward 其实根本分不清哪一步错了, 他们的解法叫 textual feedback RL--在出错的 local context 里插极短 hint,让 teacher model 生成正确分布,再用 KL loss 让原模型对齐, 风格、工具调用、解释清晰度,全都能精细调,