5月19日,马斯克发推邀请用户测试Cursor最新发布的Composer 2.5 AI模型。该模型基于月之暗面的Kimi K2.5,并利用部分Colossus 2集群训练,官方称其为“最强”模型,重点提升了长任务稳定性和复杂指令遵循能力。技术上,它采用了基于文本反馈的定向强化学习,并将合成任务规模扩大至前代的25倍以优化编码能力。标准版定价为输入每百万token 0.50美元、输出2.50美元;另有速度更快的fast版本,输入3.00美元、输出15.00美元。
Cursor发布自研编码模型Composer 2.5,其性能与Opus 4.7相当,但在成本上具有显著优势。价格方面,Composer 2.5的输入成本比Opus 4.7低10倍,输出成本低约30倍。技术层面,该模型在智能和行为表现上较前代有明显提升,尤其擅长处理长时间、大上下文的复杂任务,指令遵循的可靠性与协作流畅度也得到增强。
过去六个月,大语言模型领域发生了显著变化,尤其以2025年11月为关键转折点。在该月,被称为“最佳”的模型主导权在Anthropic、OpenAI和Google之间五次易手,先后经历了Claude Sonnet 4.5、GPT-5.1、Gemini 3等模型的快速迭代。同时,编码智能体技术取得突破,从“时常可用”跃升至“基本可用”,能够稳定执行实际开发任务,这标志着整个领域的应用成熟度得到显著提升。
Cursor正式推出Composer 2.5模型,宣称其为当前最强大的AI模型。该模型在智能性、长任务持续执行及复杂指令遵循等方面均有显著提升,并声称在同等能力下效率提升10倍。此次升级主要基于扩大训练规模、构建更复杂的强化学习环境以及引入文本反馈机制。值得注意的是,Composer 2.5的底层架构与Moonshot的Kimi K2.5同源。同时,Cursor正与SpaceXAI合作,计划用十倍算力训练下一代更大模型。未来一周内,该模型的包含用量将翻倍。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
一个GitHub项目引发关注,据称已获得10万星标并被称为2026年增长最快的AI项目。该项目的核心功能是模拟一整家AI公司,包含146个不同领域的AI专家角色和12个完整部门。用户可以通过一条命令,将这些“员工”全部集成到Claude Code中,从而免费获得涵盖前端开发、安全审计、产品管理、增长黑客等多方面的7x24小时AI支持。
Claude AI助手发布了v2.1.144版本。此次更新主要新增了对后台会话的/resume支持,并将“extra usage”更名为“usage credits”。同时包含了多项重要修复:优化了网络异常处理,解决启动卡顿问题;修复了窗口大小调整和长时间会话导致的终端显示错乱;解决了macOS特定文件夹下的崩溃问题。此外,还改进了模型选择持久化、文件读取、工具调用以及MCP服务器分页工具列表的处理,并减少了在VS Code中的渲染故障。本次更新显著提升了工具的稳定性和用户体验。
本文介绍了 OpenAI Codex 中的“Goals”功能,它将工作模式从单次“提示-执行-停止”转变为基于证据的自主循环。Goal 为 Codex 设定了一个可审计的完成目标,使其能在空闲时自主决定下一步并推进任务,无需用户反复指令。文章详细阐述了 Goal 的生命周期、命令,并重点说明了如何编写一个包含结果、验证面、约束等六个要素的“强 Goal”。同时,它指出了 Goal 最适用于性能优化、复杂任务复现等需多轮探查的场景,而不适用于简短问答等简单任务。
My colleagues wrote up a great post on using Goals in Codex. They go through when to use them, what changes when a Goal ...
针对AI协作编码中“规格永难完整”与“决策无法追踪”的核心矛盾,此提示词提出了第三条路径。它要求AI在实现需求时同步维护一份结构化文档,明确记录设计决策、对规格的偏离、考虑过的权衡以及待确认的开放性问题。这种方法的关键在于将AI执行过程中的隐性判断显式化、文档化,从而让Code Review可直接对照决策笔记,而非逆向工程代码。它不仅降低了模型的过度澄清倾向,更通过提供结构化产物,建立了一种可审计、可协作的人机开发新范式。
a prompt I've been using a lot recently: implement <SPEC> and while you do, keep a running implementation-notes.html fil...
Cursor发布迄今最强模型Composer 2.5,仍基于Kimi K2.5。模型已与SpaceXAI合作,使用Colossus 2算力开始训练,并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括:采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练,以及通过Muon优化器与分布式正交化技术优化基础设施层。此外,模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Anthropic宣布Claude Design所有计划的Token限制翻倍。这解决了以往在处理完整UI设计、多页设计稿或复杂Agent工作流时频繁出现的token不足问题。翻倍后的空间显著提升了连续创作的体验,让该工具在vibe coding、原型制作等任务中实用性大增,从“能用”跃升至“真香”。这体现了Anthropic为提升竞争力而对创作工具的持续优化。
You can now create more with Claude Design. We've doubled token limits across every plan.
本文聚焦AI编码领域正从追求“写得快”向“做得对”的工程化范式转变。文章通过三条核心线索展开:Cursor发布Composer 2.5并公开训练栈,标志着从产品公司转向模型迭代;Anthropic工程师提出对抗式生成-评估架构,将长时Agent自主运行时间从1小时提升至12小时;阿里云CIO则指出“AI生码率”是危险指标,强调代码是负债,工程化与组织能力才是关键。这共同指向一个结论:AI降低了代码生成成本,但将其转化为资产需要深度工程化。
阿里云CIO蒋林泉分享对AI Coding考核的看法,主张将“AI生码率”从考核指标中移除。他强调“代码是负债”的观点,认为由Vibe Coding等方式直接生成的代码不应直接用于生产环境。这一立场引发了对当前行业考核导向和代码质量管理的思考。
开发者马修·科萨雷克在个人博客发文宣布将停止使用JetBrains全家桶产品,其文章于2026年5月18日在Hacker News发布后引发社区讨论,获得100个点赞。这一决定可能与对替代开发工具的探索或对原有工作流的重新评估有关,但具体动因在公开摘要中未作详细说明。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Fast mode now defaults to Opus 4.7 in Claude Code. Try it out today with /fast
阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
Cursor发布的Composer 2.5并非全新底座,而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能,单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题,实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准,这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Composer 2.5 is exceptionally intelligent and up to 10x more efficient than similarly capable models.
You don't need to build the next J.A.R.V.I.S. You need to build useful tools to make businesses more efficient (data fro...
My colleagues wrote up a great post on using Goals in Codex. They go through when to use them, what changes when a Goal ...
Cursor 推出了其最新的 AI 编程模型 Composer 2.5,该模型基于 Kimi K2.5 构建,训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中,Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平,而其运行成本仅为后两者的一小部分,显著提升了成本效益比。
Soooo @trq212 has straight up changed my life with these 5 words: "HTML is the new markdown." It's so obvious in hindsig...
Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效,官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法,解决了超长轨迹(十万 token 级)下的学习难题,使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时,Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练,将依托 Colossus 2 超算集群,这也意味着其算力基础已与马斯克旗下资源深度绑定。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
OpenAI与Dell达成合作,将Codex编程代理引入企业混合云及本地部署环境。该合作旨在帮助企业在自身数据和业务流程中安全集成AI编码能力,强化对敏感数据的管控。此举标志着企业级AI工具部署方式的重要扩展,为受监管行业提供了符合数据主权要求的解决方案。
作者分享了采用AI辅助的“Vibe Coding”开发模式后的矛盾心态:虽极大提升了开发速度,但生成代码质量不佳需手动修复,却又难以接受修复的相对“慢速”,陷入拧巴状态。这被类比为游戏作弊码的体验,并指向AI在解放重复劳动的同时,可能使创造性工作本身变得“无聊”的深层议题。
AI 能解放过去很多枯燥繁琐无聊的重复工作, 也让现在的创造变得更加无聊。 -- vibe有感。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Anthropic 分享了在大型代码库中使用 Claude Code 的关键实践。核心建议包括:将 CLAUDE.md 配置分层,根目录放全局架构,子目录放局部约定;从子目录启动以精准加载上下文;测试和 lint 命令按子目录隔离运行;安装 LSP 以实现基于符号的精准代码定位;定期审查配置。组织层面需指定专人统一管理配置与规范,以促进最佳实践共享。
What are best practices for running Claude Code at scale? New blog post on what we've learned from teams running it acro...
GitHub为Copilot功能推出了远程控制会话能力,并已全面上线。该功能允许用户在VS Code或命令行中启动Copilot任务后,可随时随地通过github.com网站或GitHub Mobile移动端应用继续操作,实现了开发工作流从桌面端到移动端的无缝衔接。此更新增强了开发者在不同场景下的灵活性和工作效率。
Cursor 平台发布了智能与行为表现大幅提升的 Composer 2.5。该模型更擅长执行复杂指令和长期任务。其改进基于训练规模的扩大、更复杂的强化学习环境及新的学习方法。关键技术包括:使用文本反馈进行针对性强化学习以纠正具体错误;采用基于真实代码库、规模达前代25倍的合成数据进行训练;并引入分片Muon优化器等新架构。模型基于Moonshot的开源检查点构建。开发团队正合作训练一个计算量十倍的更大模型,并在大规模训练中发现了新型奖励作弊问题。