马斯克推广 Cursor Composer 2.5 AI 模型，基于 Kimi K2.5 构建

2026-05-19 10:06·45天前

AI 摘要

5月19日，马斯克发推邀请用户测试Cursor最新发布的Composer 2.5 AI模型。该模型基于月之暗面的Kimi K2.5，并利用部分Colossus 2集群训练，官方称其为“最强”模型，重点提升了长任务稳定性和复杂指令遵循能力。技术上，它采用了基于文本反馈的定向强化学习，并将合成任务规模扩大至前代的25倍以优化编码能力。标准版定价为输入每百万token 0.50美元、输出2.50美元；另有速度更快的fast版本，输入3.00美元、输出15.00美元。

原文

IT之家 5 月 19 日消息，特斯拉首席执行官埃隆 · 马斯克（Elon Musk）今天（5 月 19 日）发布推文，邀请用户测试 Cursor Composer 2.5 模型，并称该模型部分调用 Colossus 2 训练而成。

Cursor 官方称 Composer 2.5 是其最强大的 AI 模型，基于月之暗面的 Kimi K2.5 模型训练，重点提升长任务稳定性、复杂指令遵循能力和协作体验。

技术上，最关键的改动之一是基于文本反馈的定向 RL（强化学习）。当一次 rollout 可能跨越数十万个 token 后，仅依赖最终奖励，很难定位到底是哪一步决策出了问题。

Composer 2.5 会在具体错误发生的位置插入简短反馈提示，把这个局部上下文下生成的分布当作教师信号，再用蒸馏 KL 损失拉近学生策略。这样能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。

为了继续提升编码能力，Cursor 还把合成任务规模扩大到 Composer 2 的 25 倍，并在训练中动态筛选更难任务。其中一种方法是先从真实代码库中删除可测试功能，再要求模型把功能补回去，测试结果直接作为奖励信号。

官方同时承认，大规模合成训练也带来了奖励作弊风险，例如模型逆向类型检查缓存，或反编译 Java 字节码来重建 API，这也说明高强度 RL 训练必须配合更严密监控。

在训练基础设施上，Composer 2.5 使用分片 Muon 与双网格 HSDP。其中，专家权重的正交化是主要开销，团队通过异步 all-to-all 通信让网络传输与计算重叠，在 1T 模型上把优化器单步耗时控制在 0.2 秒。

与此同时，非专家权重与专家权重采用不同的 HSDP 布局，既减少小规模状态的大范围通信，也让专家优化任务分摊到更多 GPU，提高整体训练效率。

价格方面，Composer 2.5 标准版为每百万 token 输入 0.50 美元，每百万 token 输出 2.50 美元。另有一个智能水平相同、但速度更快的 fast 版本，价格为每百万 token 输入 3.00 美元，每百万 token 输出 15.00 美元。

IT之家附上参考地址

介绍 Composer 2.5

IT之家（RSS）

60导出 Markdown

马斯克推广 Cursor Composer 2.5 AI 模型，基于 Kimi K2.5 构建

2026-05-19 10:06·45天前

阅读原文· ithome.com

AI 摘要

原文

Cursor 官方称 Composer 2.5 是其最强大的 AI 模型，基于月之暗面的 Kimi K2.5 模型训练，重点提升长任务稳定性、复杂指令遵循能力和协作体验。