AYi@AYi_AInotes

2026-05-19 02:41·45天前

AI 摘要

Cursor发布的Composer 2.5并非全新底座，而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能，单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题，实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准，这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。

Cursor 今天发的 Composer 2.5，表面看是常规迭代，拆开基准图和 blog 之后我整个人都有点懵，

它本质上其实不是一个新模型，更像是把 RL 后训玩到极致的 agentic 怪物，

因为它85% 的算力根本没花在底座上，全都砸在后期魔改上了🤣 同等智能下成本直接砍到对手的十分之一，

最狠的是那张成本-性能曲线， Composer 2.5 在 CursorBench 3.1 上拿到 63.2%，单任务成本几乎贴着 0 美元那条线，

Opus 4.7 xhigh 要贵一个数量级才能接近，GPT-5.5 medium 也要 2 美元左右， Terminal-Bench 直接追平 Opus 4.7，

10x 更高效这个感觉不是吹的，

但我觉得这件事真正值得关注的可能不是 benchmark 数字，而在于他们做对了一件 agentic 里最痛苦的事：就是信用分配，

长 rollout 几千上万 token，global reward 其实根本分不清哪一步错了，他们的解法叫 textual feedback RL--在出错的 local context 里插极短 hint，让 teacher model 生成正确分布，再用 KL loss 让原模型对齐，风格、工具调用、解释清晰度，全都能精细调，

这意味着什么，

以前大家迷信谁底座大谁牛，现在看的是谁敢把 80%+ 算力砸在 RL 和合成数据闭环里， Kimi k2 只占 7.5%，却把 Opus 和 GPT 打到平手，

Agentic coding 真正的胜负手不在单次 pass@1，而在于 40 分钟后它还能不能自己恢复状态继续跑，在于该努力时努力、该偷懒时不浪费 token 的行为校准，这些东西现有 benchmark 根本测不到，但开发者每天都能感受到，

我觉得这是 Composer 2.5 最被低估的地方，

以后做 agent 的人，得同时建 anti-hacking 监控了--他们用 25x 合成数据后，模型已经聪明到能逆向工程类型缓存、反编译 bytecode 来钻漏洞，reward hacking 可能也不再是 bug，是需要被管理的 emergent behavior，

Cursor 也不再只是 IDE 公司了，他们和 SpaceXAI 合作，用 Colossus 2 从零训 10x compute 大模型，

垂直整合的时代终于要来了，做编辑器的反向，掌控最上游模型能力，

我觉得真正的差距不在单次 prompt，而在第 45 分钟它还能不能自己爬起来继续干 hhh

CursorIntroducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running tasks, and more reliable at following com...

AYi@AYi_AInotes · X

62导出 Markdown