Claude Code 路径、分布式 RL 训练与 SaaSpocalypse 现象剖析 · AI HOT
ginobefun @hongming731 66
2026-05-28 08:34 ·36天前
AI 摘要 Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
ginobefun @hongming731 · X 2026-05-28 08:34 · 36天前
在 X 看原推 · x.com AI 摘要 Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
Megan 特别强调了一个度量迁移:从 Token 用量转向用户留存与管道营收。这看起来是小事,背后却是产品哲学的转变--衡量 AI 工具价值的标准,从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。
管理层须亲自上手、持续操刀 Repo,不是作秀,是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值:领导者的直接参与,是维持迭代弹性的结构性保障,而不仅仅是传递信号。
这篇内容不是产品方法论的泛泛总结,而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用--这三个机制彼此咬合,缺一不可。如果你在思考 AI 原生团队该怎么运转,这是目前能找到的最具体的参照之一。
值得额外关注的是 Anthropic 的女性领导力比例:CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实,而是组织文化的折射--一个真正重视多元视角的组织,往往在打破固有边界(比如「设计师不写代码」)这件事上也更有行动力。
阅读建议:结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践,Composer 2 是模型训练侧的 AI 原生实践,两者共同勾勒出「AI 原生」的两种形态。
阅读链接:Anthropic 设计负责人谈 Claude Code:一年拿下 51% 市场份额的产品路径
精讲二:Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路:从头训练一个专门为软件工程优化的模型,并且为此搭建了一套异步分布式 RL 基础设施。
Federico(Cursor 研究负责人)给出了一个直观的类比:LLM 的参数空间就像一块存储介质,位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力;Cursor 的做法是把所有位都集中到软件工程这个窄域,用专注换效率。
结果是:更小、更低延迟的模型,在代码编辑任务上超过了比它大得多的通用模型(如 GPT-4 Opus),运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例--在足够窄的领域,专注的数据维度比纯粹的规模更有效。
第一阶段是持续预训练,以 1 万亿参数 MoE 模型 Kimi 2.5(30B 活跃参数)为基础,大规模运行代码和 web token 的下一个 token 预测,拓宽模型的基础分布,编码基础库知识和工程模式。
第二阶段是大规模强化学习。模型进入主动 RL 循环,在 Cursor 环境框架内执行工具调用、获得奖励信号,逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同,RL 阶段的目标是「学会在工具和结果中导航」。
标准 RL 管线的一个固有问题是计算空转:推理阶段训练器空转,权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线:推理 Rollout 和权重更新同步进行,GPU 全程满负荷,消除了昂贵计算资源的空转损耗。
Delta 权重压缩:在分布式训练中,每次权重更新都需要在全球节点同步,数据量巨大。Delta 权重压缩只传输权重的变化量,把全球同步流量降低了约 20 倍。 Router Replay Tracking:稀疏 MoE 架构(Sparse Mixture of Experts)的一个棘手问题是数值漂移--不同专家路由的使用频率不均,导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程,保持数值对齐。 自摘要上下文压缩:编码智能体在真实工作中会产生超长轨迹,百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力,而不是外挂规则,让智能体在长轨迹中保持推理连贯性。 Cursor 的路径揭示了一个范式:当模型训练成本不再是天文数字,专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力,垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证--ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越,只是在生物信息领域,通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。
这篇不是概念介绍,而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层,这篇帮你理解专有模型训练的真实成本和收益;如果你在做 ML 基础设施,异步流水线和 Delta 压缩是可直接参考的工程方案。
结合精讲三看:Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」,而精讲三在问的是「工程师的工作本身会被如何改变」。
阅读链接:Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体
精讲三:2026:软件的末日、工程师的陨落、平庸的消失 2026 年 1 月,美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅:标普北美软件指数下跌 15%。不是因为业绩崩塌,而是因为华尔街意识到一件事--SaaS 的护城河正在被 AI Agent 从根部挖空。
华尔街给这场抛售起了个名字:SaaSpocalypse,软件末日。
过去二十年,SaaS 的商业逻辑建立在一个前提上:把企业功能打包成操作界面,按席位收取月费。界面即产品,界面即护城河。员工用久了形成肌肉记忆,替换成本极高,这是 SaaS 估值飞涨的核心驱动力。
AI Agent 打破的,正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子,语气平静、但意味深长:「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360,无需浏览器。」这家靠界面起家的商业帝国,亲手把自己的界面变成了可选项。
逻辑链条是这样的:Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层,壁垒被 AI 复制。
但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分:AI 大幅降低了重建一套系统前 80% 的成本,而剩余的 20%--特殊事项、审批流程、合规要求--仍然是「可用原型」与「真正替代品」之间的分水岭。
被集中做空的,是价值落在「前 80%」的中间层:以数据分发为核心的 Thomson Reuters(单日暴跌 16%)、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征:壁垒恰好集中在最容易被 AI 复制的区域。
而管理财务账目的后台系统、涉及合规审计的数据平台,则属于那难以逾越的「20%」。ERP 的迁移,a16z 把它比作「病人在跑马拉松时做开胸手术」。
直觉上,AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事:蒸汽机效率越高,英国消耗的煤炭反而越多--效率提升让资源变便宜,催生了大批原本不存在的使用场景,导致总消耗净增长。这就是杰文斯悖论。
Token 正走同一条路。GPT-4 问世时,每百万 Token 调用成本 37.5 美元;两年后,GPT-5 High 降至 3.63 美元,性能却突破人类博士水平。成本下降超过 99%,但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单:过去 30 天,个人级别消耗 6030 亿 Token,单月花费超过 130 万美元。
每一次 Token 价格的下跌,都不只是让现有软件运行得更便宜,而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用;OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实--这在两年前根本不存在。
工程师的角色迁移:从写代码到 Software 3.0
文章的结尾是最值得停下来想一想的部分:工程师的角色正从「写代码」迁移向 Software 3.0--设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作,他说:「我花了五秒钟把所有情绪过了一遍,然后就明白,好吧,我的职业生涯完了。」
平庸的产出正在加速消失,但这不意味着工程师集体消失--而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师,将会更稀缺、更有价值。
文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP(Model Context Protocol)正在成为 Agent 时代的 USB 接口--一次接入,所有支持 MCP 的 AI(Claude、ChatGPT、Cursor、Copilot 等)均可调用。在 MCP 之前,每让 AI 接入一个新工具都要单独写一套适配代码;MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后,必须出现的基础管道。
这篇文章的论述与精讲一、二构成了一个完整的三角:Claude Code(产品侧 AI 原生)+ Composer 2(训练侧 AI 原生)+ SaaSpocalypse(产业侧 AI 冲击)。三篇合在一起,描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起,也都是这场变革在不同应用层面的具体落地--当你把它们放在这篇文章的框架里,会看到一幅更清晰的全景图。
阅读建议:如果你是工程师,重点看「工程师角色迁移」和「Software 3.0」部分;如果你在做产品或投资,重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长,但论证密度高,值得完整阅读。
阅读链接:2026:软件的末日、工程师的陨落、平庸的消失
速览 BioHub 团队推出开源蛋白质结构预测模型 ESMFold2,在多样化数据上扩展简单的 BERT 类 Transformer,在蛋白质相互作用(尤其是抗体预测)方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻--通用架构加海量数据,再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照:Cursor 走专用模型路线赢,但生物信息领域是通用路线赢,背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索,对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文
Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周
Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台,让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent,无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统:一个元 Agent 作为有状态路由器,用 Command(goto=…) 把请求分发给专用子 Agent,每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周--这和精讲三「软件液化」的论断高度呼应:当非技术人员能直接配置 Agent,软件开发的边界正在重新定义。阅读原文
Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时,遭遇了两次险情:AI 建议把存储桶设为公开访问(会泄露敏感品牌资产),以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论:Vibe Coding 加速了原型到产品的路径,但 AI 生成的代码需要确定性的护栏,而不仅仅是更好的提示词,才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文
Airtable 如何为 AI 功能构建语义搜索层
Airtable 有一个关键数据观察:任何一周内,75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策--选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快,冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事,而是「一个数据特性如何决定了一整套工程决策链」的案例,对有类似冷热数据分布的团队有直接参考价值。阅读原文
万字入门 AI Infra:大模型的数学与优化逻辑
从 RMSNorm、Softmax、Causal Mask 到 Sampling,逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断:AI Infra 优化的本质是用数学上的等价变换,或对精度的适度妥协,换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发,解释 FP16 数值上限 65504 为何会成为工程约束,再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字,覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者,也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文
别再盯着 AI Agent 干活:构建运行时上下文引擎
Brandon Walsenuk 认为,可靠的自主编码 Agent 需要「运行时上下文引擎」,而不只是更长的提示词或更多工具权限。他指出了三个常见误区:朴素 RAG 因「搜索满足感」效应导致信息遗漏(Agent 找到第一个看似匹配的答案后就停止探索,错过更完整的技术现实);单纯连接 MCP 管道解决不了组织知识缺失;给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突,这是一个系统设计问题,而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看,两者都在解决同一个问题:如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文
AI 基础设施新晋独角兽:Fireworks、Baseten、OpenRouter
Fireworks 和 Baseten 双双跻身独角兽,OpenRouter 宣布 $113M B 轮,过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点:基础设施越高效,消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起,以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是,Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方--同一家公司在一天内以两种身份出现在今天的早报里,这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文
补充阅读 CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段,弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15,000+ 客户的规模背后,是一套「先规划、再生成」的编排逻辑--规划阶段帮助 Agent 在行动之前理解变更的意图和范围,减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补:一个说 Vibe Coding 的安全风险,一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文
使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI,把从业者的修正转化为结构化评估目标,让 Agent 自主改进--准确率达 97%,吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环,让改进不再依赖工程师手动推进:从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文
使用 LLM 保护源代码安全 Anthropic 六步循环法:威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化,瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日,Anthropic 在开源软件中已披露 1,596 个漏洞,其中仅 97 个完成修补--这个数字本身就是现状的真实写照:AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文
Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品,用 ETCLOVG 七层框架(执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理)系统梳理 Agent Harness 工程,覆盖 170+ 开源项目。核心判断:Agent 在长任务、真工具、真实环境中失败,往往不是模型不够聪明,而是系统没把它管好。只改工程外壳不改模型,有研究在 coding benchmark 上实现了最高 10 倍提升;固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件,在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文
淘天集团「数字 SRE」:AI 主导代码质量治理 从 AI 辅助开发到 AI 主导开发的四阶段演进,淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题,开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例:AI 负责语法级修复这类有明确规则的 Blocker,人类保留关键审核节点--这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文
DiT 残差流的收敛瓶颈与 DAR 解法 南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing(DAR),用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加,实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题:PreNorm dilution(历史累积量越来越大,新层想改变表示须对抗膨胀的主干)、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文
今日阅读路径 2026:软件的末日、工程师的陨落、平庸的消失(精讲三)--理解当前产业变局的整体框架,SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」,先读这篇,其他内容会更有定位感。 Anthropic 设计负责人谈 Claude Code:一年拿下 51% 市场份额的产品路径(精讲一)--具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用,三个机制对任何在思考 AI 原生组织的人都有直接参考价值。 VibeSec 的清算时刻(速览)--Vibe Coding 安全风险的真实案例,15 分钟读完,能帮你在下一个 AI 代码项目里提前避坑。 精讲二(Composer 2 训练工程)+ 速览「Lyft LangGraph 平台」--从模型训练到 Agent 平台,构建对 AI 基础设施的完整认知。 补充阅读「Agent Harness Engineering 综述」--为精讲二和速览「运行时上下文引擎」提供理论框架支撑。 今天的早报把这个转折的三个截面放在一起:产品路径(Claude Code 如何被设计出来)、训练工程(Composer 2 如何被炼成)、产业冲击(SaaS 中间层如何被瓦解,工程师角色如何迁移)。读完这三篇,你会对「AI 原生」有更立体的感知,而不只是一个标语。
速览板块还覆盖了 ESMFold2 在蛋白质预测领域的「苦涩教训」时刻、Lyft 用 LangGraph 把 Agent 开发周期从半年压缩到数周的工程实践、Vibe Coding 遭遇安全清算的真实案例,以及 Airtable、Fireworks 的基础设施故事。
精讲一:Anthropic 设计负责人谈 Claude Code:一年拿下 51% 市场份额的产品路径 Claude Code 的起点比大多数人想象的低得多。2024 年,Anthropic 内部一个 12 人团队决定试验一个想法:把 Claude 接入命令行,直接操作文件系统。第一个原型配置需要整整一个小时,距离所谓「产品」还差得很远。
但早期内部演示视频在 Slack 流传后,团队意识到方向是对的。接下来三个月,他们专注于三件事:打磨用户体验、消灭平台 Bug、大量内部使用积累信心。这种「先内部高强度使用,再对外发布」的节奏,成为 Claude Code 后续迭代的基本范式。
Anthropic 设计负责人 Megan 在 Product School 的分享里,把这归结为三个机制:
第一是流动 Pod 结构。传统产品开发里,设计师做设计、工程师写代码、PM 写 PRD--边界清晰但也僵硬。Claude Code 团队打破了这层边界:设计师会直接把代码推到生产环境,工程师主动做用户体验决策。Pod 的规模和构成随功能需求弹性调整,通常是 3 至 5 人,没有固定比例。这种跨职能的流动性,在 AI 加速迭代的环境下释放了显著的执行弹性。
第二是把质量关口移到运行时。当 AI 让代码生成速度提升 10 倍,传统的 PRD、静态 Mockup 等质量控制环节就成了瓶颈。Anthropic 的解法是把验收标准前移到真实运行行为:团队内部高频部署原型,监控实际使用模式,用运行时数据而非文档勾选来决定是否推进。这个方法在 AI 原生组织里有深刻意义:它不是「更快写代码」,而是「把反馈回路压缩到极致」。
第三是Bottom-up 企业采用。Claude Code 没有走自上而下的销售路线,而是从工程师个人使用开始,自然扩散到团队,再渗透到组织层面。这种采用曲线在金融基础设施、零售等高度监管行业也同样奏效--先赢得工程师,再赢得决策者。
Megan 特别强调了一个度量迁移:从 Token 用量转向用户留存与管道营收。这看起来是小事,背后却是产品哲学的转变--衡量 AI 工具价值的标准,从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。
管理层须亲自上手、持续操刀 Repo,不是作秀,是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值:领导者的直接参与,是维持迭代弹性的结构性保障,而不仅仅是传递信号。
这篇内容不是产品方法论的泛泛总结,而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用--这三个机制彼此咬合,缺一不可。如果你在思考 AI 原生团队该怎么运转,这是目前能找到的最具体的参照之一。
值得额外关注的是 Anthropic 的女性领导力比例:CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实,而是组织文化的折射--一个真正重视多元视角的组织,往往在打破固有边界(比如「设计师不写代码」)这件事上也更有行动力。
阅读建议:结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践,Composer 2 是模型训练侧的 AI 原生实践,两者共同勾勒出「AI 原生」的两种形态。
阅读链接:Anthropic 设计负责人谈 Claude Code:一年拿下 51% 市场份额的产品路径
精讲二:Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路:从头训练一个专门为软件工程优化的模型,并且为此搭建了一套异步分布式 RL 基础设施。
Federico(Cursor 研究负责人)给出了一个直观的类比:LLM 的参数空间就像一块存储介质,位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力;Cursor 的做法是把所有位都集中到软件工程这个窄域,用专注换效率。
结果是:更小、更低延迟的模型,在代码编辑任务上超过了比它大得多的通用模型(如 GPT-4 Opus),运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例--在足够窄的领域,专注的数据维度比纯粹的规模更有效。
第一阶段是持续预训练,以 1 万亿参数 MoE 模型 Kimi 2.5(30B 活跃参数)为基础,大规模运行代码和 web token 的下一个 token 预测,拓宽模型的基础分布,编码基础库知识和工程模式。
第二阶段是大规模强化学习。模型进入主动 RL 循环,在 Cursor 环境框架内执行工具调用、获得奖励信号,逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同,RL 阶段的目标是「学会在工具和结果中导航」。
标准 RL 管线的一个固有问题是计算空转:推理阶段训练器空转,权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线:推理 Rollout 和权重更新同步进行,GPU 全程满负荷,消除了昂贵计算资源的空转损耗。
Delta 权重压缩:在分布式训练中,每次权重更新都需要在全球节点同步,数据量巨大。Delta 权重压缩只传输权重的变化量,把全球同步流量降低了约 20 倍。 Router Replay Tracking:稀疏 MoE 架构(Sparse Mixture of Experts)的一个棘手问题是数值漂移--不同专家路由的使用频率不均,导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程,保持数值对齐。 自摘要上下文压缩:编码智能体在真实工作中会产生超长轨迹,百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力,而不是外挂规则,让智能体在长轨迹中保持推理连贯性。 Cursor 的路径揭示了一个范式:当模型训练成本不再是天文数字,专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力,垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证--ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越,只是在生物信息领域,通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。
这篇不是概念介绍,而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层,这篇帮你理解专有模型训练的真实成本和收益;如果你在做 ML 基础设施,异步流水线和 Delta 压缩是可直接参考的工程方案。
结合精讲三看:Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」,而精讲三在问的是「工程师的工作本身会被如何改变」。
阅读链接:Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体
精讲三:2026:软件的末日、工程师的陨落、平庸的消失 2026 年 1 月,美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅:标普北美软件指数下跌 15%。不是因为业绩崩塌,而是因为华尔街意识到一件事--SaaS 的护城河正在被 AI Agent 从根部挖空。
华尔街给这场抛售起了个名字:SaaSpocalypse,软件末日。
过去二十年,SaaS 的商业逻辑建立在一个前提上:把企业功能打包成操作界面,按席位收取月费。界面即产品,界面即护城河。员工用久了形成肌肉记忆,替换成本极高,这是 SaaS 估值飞涨的核心驱动力。
AI Agent 打破的,正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子,语气平静、但意味深长:「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360,无需浏览器。」这家靠界面起家的商业帝国,亲手把自己的界面变成了可选项。
逻辑链条是这样的:Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层,壁垒被 AI 复制。
但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分:AI 大幅降低了重建一套系统前 80% 的成本,而剩余的 20%--特殊事项、审批流程、合规要求--仍然是「可用原型」与「真正替代品」之间的分水岭。
被集中做空的,是价值落在「前 80%」的中间层:以数据分发为核心的 Thomson Reuters(单日暴跌 16%)、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征:壁垒恰好集中在最容易被 AI 复制的区域。
而管理财务账目的后台系统、涉及合规审计的数据平台,则属于那难以逾越的「20%」。ERP 的迁移,a16z 把它比作「病人在跑马拉松时做开胸手术」。
直觉上,AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事:蒸汽机效率越高,英国消耗的煤炭反而越多--效率提升让资源变便宜,催生了大批原本不存在的使用场景,导致总消耗净增长。这就是杰文斯悖论。
Token 正走同一条路。GPT-4 问世时,每百万 Token 调用成本 37.5 美元;两年后,GPT-5 High 降至 3.63 美元,性能却突破人类博士水平。成本下降超过 99%,但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单:过去 30 天,个人级别消耗 6030 亿 Token,单月花费超过 130 万美元。
每一次 Token 价格的下跌,都不只是让现有软件运行得更便宜,而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用;OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实--这在两年前根本不存在。
工程师的角色迁移:从写代码到 Software 3.0
文章的结尾是最值得停下来想一想的部分:工程师的角色正从「写代码」迁移向 Software 3.0--设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作,他说:「我花了五秒钟把所有情绪过了一遍,然后就明白,好吧,我的职业生涯完了。」
平庸的产出正在加速消失,但这不意味着工程师集体消失--而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师,将会更稀缺、更有价值。
文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP(Model Context Protocol)正在成为 Agent 时代的 USB 接口--一次接入,所有支持 MCP 的 AI(Claude、ChatGPT、Cursor、Copilot 等)均可调用。在 MCP 之前,每让 AI 接入一个新工具都要单独写一套适配代码;MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后,必须出现的基础管道。
这篇文章的论述与精讲一、二构成了一个完整的三角:Claude Code(产品侧 AI 原生)+ Composer 2(训练侧 AI 原生)+ SaaSpocalypse(产业侧 AI 冲击)。三篇合在一起,描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起,也都是这场变革在不同应用层面的具体落地--当你把它们放在这篇文章的框架里,会看到一幅更清晰的全景图。
阅读建议:如果你是工程师,重点看「工程师角色迁移」和「Software 3.0」部分;如果你在做产品或投资,重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长,但论证密度高,值得完整阅读。
阅读链接:2026:软件的末日、工程师的陨落、平庸的消失
速览 BioHub 团队推出开源蛋白质结构预测模型 ESMFold2,在多样化数据上扩展简单的 BERT 类 Transformer,在蛋白质相互作用(尤其是抗体预测)方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻--通用架构加海量数据,再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照:Cursor 走专用模型路线赢,但生物信息领域是通用路线赢,背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索,对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文
Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周
Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台,让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent,无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统:一个元 Agent 作为有状态路由器,用 Command(goto=…) 把请求分发给专用子 Agent,每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周--这和精讲三「软件液化」的论断高度呼应:当非技术人员能直接配置 Agent,软件开发的边界正在重新定义。阅读原文
Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时,遭遇了两次险情:AI 建议把存储桶设为公开访问(会泄露敏感品牌资产),以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论:Vibe Coding 加速了原型到产品的路径,但 AI 生成的代码需要确定性的护栏,而不仅仅是更好的提示词,才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文
Airtable 如何为 AI 功能构建语义搜索层
Airtable 有一个关键数据观察:任何一周内,75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策--选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快,冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事,而是「一个数据特性如何决定了一整套工程决策链」的案例,对有类似冷热数据分布的团队有直接参考价值。阅读原文
万字入门 AI Infra:大模型的数学与优化逻辑
从 RMSNorm、Softmax、Causal Mask 到 Sampling,逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断:AI Infra 优化的本质是用数学上的等价变换,或对精度的适度妥协,换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发,解释 FP16 数值上限 65504 为何会成为工程约束,再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字,覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者,也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文
别再盯着 AI Agent 干活:构建运行时上下文引擎
Brandon Walsenuk 认为,可靠的自主编码 Agent 需要「运行时上下文引擎」,而不只是更长的提示词或更多工具权限。他指出了三个常见误区:朴素 RAG 因「搜索满足感」效应导致信息遗漏(Agent 找到第一个看似匹配的答案后就停止探索,错过更完整的技术现实);单纯连接 MCP 管道解决不了组织知识缺失;给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突,这是一个系统设计问题,而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看,两者都在解决同一个问题:如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文
AI 基础设施新晋独角兽:Fireworks、Baseten、OpenRouter
Fireworks 和 Baseten 双双跻身独角兽,OpenRouter 宣布 $113M B 轮,过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点:基础设施越高效,消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起,以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是,Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方--同一家公司在一天内以两种身份出现在今天的早报里,这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文
补充阅读 CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段,弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15,000+ 客户的规模背后,是一套「先规划、再生成」的编排逻辑--规划阶段帮助 Agent 在行动之前理解变更的意图和范围,减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补:一个说 Vibe Coding 的安全风险,一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文
使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI,把从业者的修正转化为结构化评估目标,让 Agent 自主改进--准确率达 97%,吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环,让改进不再依赖工程师手动推进:从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文
使用 LLM 保护源代码安全 Anthropic 六步循环法:威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化,瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日,Anthropic 在开源软件中已披露 1,596 个漏洞,其中仅 97 个完成修补--这个数字本身就是现状的真实写照:AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文
Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品,用 ETCLOVG 七层框架(执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理)系统梳理 Agent Harness 工程,覆盖 170+ 开源项目。核心判断:Agent 在长任务、真工具、真实环境中失败,往往不是模型不够聪明,而是系统没把它管好。只改工程外壳不改模型,有研究在 coding benchmark 上实现了最高 10 倍提升;固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件,在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文
淘天集团「数字 SRE」:AI 主导代码质量治理 从 AI 辅助开发到 AI 主导开发的四阶段演进,淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题,开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例:AI 负责语法级修复这类有明确规则的 Blocker,人类保留关键审核节点--这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文
DiT 残差流的收敛瓶颈与 DAR 解法 南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing(DAR),用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加,实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题:PreNorm dilution(历史累积量越来越大,新层想改变表示须对抗膨胀的主干)、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文
今日阅读路径 2026:软件的末日、工程师的陨落、平庸的消失(精讲三)--理解当前产业变局的整体框架,SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」,先读这篇,其他内容会更有定位感。 Anthropic 设计负责人谈 Claude Code:一年拿下 51% 市场份额的产品路径(精讲一)--具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用,三个机制对任何在思考 AI 原生组织的人都有直接参考价值。 VibeSec 的清算时刻(速览)--Vibe Coding 安全风险的真实案例,15 分钟读完,能帮你在下一个 AI 代码项目里提前避坑。 精讲二(Composer 2 训练工程)+ 速览「Lyft LangGraph 平台」--从模型训练到 Agent 平台,构建对 AI 基础设施的完整认知。 补充阅读「Agent Harness Engineering 综述」--为精讲二和速览「运行时上下文引擎」提供理论框架支撑。