Cursor发布迄今最强模型Composer 2.5,仍基于Kimi K2.5。模型已与SpaceXAI合作,使用Colossus 2算力开始训练,并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括:采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练,以及通过Muon优化器与分布式正交化技术优化基础设施层。此外,模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。
Cursor 发布 Composer 2.5,仍基于 Kimi K2.5,同时因为与 SpaceXAI 合作,马斯克亲自发帖证实 Composer 2.5 已经开始使用 Colossus 2 算力训练,同时正在合作从零训练一个算力规模 10 倍以上的全新模型!
Composer 2.5 相对 Composer 2 在智能水平和行为表现上均有显著提升,重点改进了三类能力:长任务的持续推进、复杂指令的可靠遵循、协作交互的自然度。 https://cursor.com/blog/composer-2-5
三项关键训练创新 1. 定向文本反馈强化学习 解决问题:长任务(数十万 token 的 rollout)中,最终奖励难以告诉模型究竟是哪一步出了错--典型的 RL 信用分配难题。 2. 合成训练数据 合成任务量是 Composer 2 的 25 倍。其中一种代表性方法是 feature deletion: · 给模型一个有完整测试套件的代码库 · 删除若干代码以剥离某个特性 · 让 agent 重新实现该特性,以原测试作为可验证奖励 3. 基础设施层优化 继续预训练阶段使用 Muon 优化器 + 分布式正交化: · 按模型自然粒度跑 Newton-Schulz(attention 按 head,MoE 按 expert) · 分片张量先 all-to-all 拼回完整矩阵,正交化后再 all-to-all 散回;通信与计算异步重叠 · 1T 模型的优化器单步耗时仅 0.2s