马斯克推广 Cursor Composer 2.5 AI 模型,基于 Kimi K2.5 构建
阅读原文· ithome.com5月19日,马斯克发推邀请用户测试Cursor最新发布的Composer 2.5 AI模型。该模型基于月之暗面的Kimi K2.5,并利用部分Colossus 2集群训练,官方称其为“最强”模型,重点提升了长任务稳定性和复杂指令遵循能力。技术上,它采用了基于文本反馈的定向强化学习,并将合成任务规模扩大至前代的25倍以优化编码能力。标准版定价为输入每百万token 0.50美元、输出2.50美元;另有速度更快的fast版本,输入3.00美元、输出15.00美元。
IT之家 5 月 19 日消息,特斯拉首席执行官埃隆 · 马斯克(Elon Musk)今天(5 月 19 日)发布推文,邀请用户测试 Cursor Composer 2.5 模型,并称该模型部分调用 Colossus 2 训练而成。
Cursor 官方称 Composer 2.5 是其最强大的 AI 模型,基于月之暗面的 Kimi K2.5 模型训练,重点提升长任务稳定性、复杂指令遵循能力和协作体验。
技术上,最关键的改动之一是基于文本反馈的定向 RL(强化学习)。当一次 rollout 可能跨越数十万个 token 后,仅依赖最终奖励,很难定位到底是哪一步决策出了问题。
Composer 2.5 会在具体错误发生的位置插入简短反馈提示,把这个局部上下文下生成的分布当作教师信号,再用蒸馏 KL 损失拉近学生策略。这样能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。
为了继续提升编码能力,Cursor 还把合成任务规模扩大到 Composer 2 的 25 倍,并在训练中动态筛选更难任务。其中一种方法是先从真实代码库中删除可测试功能,再要求模型把功能补回去,测试结果直接作为奖励信号。
官方同时承认,大规模合成训练也带来了奖励作弊风险,例如模型逆向类型检查缓存,或反编译 Java 字节码来重建 API,这也说明高强度 RL 训练必须配合更严密监控。
在训练基础设施上,Composer 2.5 使用分片 Muon 与双网格 HSDP。其中,专家权重的正交化是主要开销,团队通过异步 all-to-all 通信让网络传输与计算重叠,在 1T 模型上把优化器单步耗时控制在 0.2 秒。