meng shao@shao__meng

2026-05-19 08:50·45天前

AI 摘要

Cursor发布迄今最强模型Composer 2.5，仍基于Kimi K2.5。模型已与SpaceXAI合作，使用Colossus 2算力开始训练，并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括：采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练，以及通过Muon优化器与分布式正交化技术优化基础设施层。此外，模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。

Cursor 发布 Composer 2.5，仍基于 Kimi K2.5，同时因为与 SpaceXAI 合作，马斯克亲自发帖证实 Composer 2.5 已经开始使用 Colossus 2 算力训练，同时正在合作从零训练一个算力规模 10 倍以上的全新模型！

Composer 2.5 相对 Composer 2 在智能水平和行为表现上均有显著提升，重点改进了三类能力：长任务的持续推进、复杂指令的可靠遵循、协作交互的自然度。 https://cursor.com/blog/composer-2-5

三项关键训练创新 1. 定向文本反馈强化学习解决问题：长任务（数十万 token 的 rollout）中，最终奖励难以告诉模型究竟是哪一步出了错--典型的 RL 信用分配难题。 2. 合成训练数据合成任务量是 Composer 2 的 25 倍。其中一种代表性方法是 feature deletion： · 给模型一个有完整测试套件的代码库 · 删除若干代码以剥离某个特性 · 让 agent 重新实现该特性，以原测试作为可验证奖励 3. 基础设施层优化继续预训练阶段使用 Muon 优化器 + 分布式正交化： · 按模型自然粒度跑 Newton-Schulz（attention 按 head，MoE 按 expert） · 分片张量先 all-to-all 拼回完整矩阵，正交化后再 all-to-all 散回；通信与计算异步重叠 · 1T 模型的优化器单步耗时仅 0.2s

训练目标的"软"维度 Cursor 明确指出现有 benchmark 无法很好衡量的两个维度，他们专门优化了： · Communication style（沟通风格） · Effort calibration（投入度校准--什么时候该多想、什么时候该收手）

这两点在实际协作中体感差异很大，也是这次定向文本反馈方法的重点应用场景。

CursorIntroducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running tasks, and more reliable at following com...

数据/训练模型发布编码

在 X 查看原推

meng shao@shao__meng · X

71导出 Markdown

2026-05-19 08:50·45天前

在 X 看原推· x.com

AI 摘要