How lucky are you to have been born when and where you are? Had Opus 4.8 in Claude Code whip up a new visualization of all humans who ever lived. In addition to being neat, it is an interesting test of combining research, code, design and stats for an AI. https://veil-of-history.netlify.app/

译你有多幸运，能生在现在这个时代和地方？让Claude Code里的Opus 4.8快速制作了一个新可视化，展示了所有曾经存在过的人类。这不仅很酷，也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https://veil-of-history.netlify.app/

meng shao@shao__meng · 5月29日75

Claude Opus 4.8 发布：可靠性和执行能力进一步提升，更适合承担复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。刚好，就在 Anthropic 官宣 H 轮 650 亿美金融资的当天，难怪没有阻击 Google I/O，原来是在配合自家融资官宣（也是 Gemini Flash 3.5 太不值得狙击了吗？）同时 Claude 另外两个模型：Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新，还会有吗？看看 Claude Opus 4.8 几个关键变化： 1. 编码与知识工作能力进一步提升，SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6% 2. 更诚实（4x），减少误判进度、主动标注不确定性，强调「自我监控 + 如实汇报」 3. Agent 协作质量：判断更稳、工具更省、任务更能跑完 4. 计算机 / 浏览器 Agent 继续提升，OSWorld-Verified：83.4%、Online-Mind2Web：84%，对 RPA、浏览器自动化、computer-use 产品意义最大 5. Claude Code Dynamic Workflows：从单 Agent 到「规划 + 并行 + 验证」

译Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7，提升了判断力、诚实度与独立工作时长，更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍，能更准确地自我监控与汇报进度。智能体协作质量提高，判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强，OSWorld-Verified得分83.4%，Online-Mind2Web得分84%。同时，Claude Code推出Dynamic Workflows，从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日71

Claude Opus 4.8 is now available on AI/ML API 🔥 According to the tests: > It has roughly 4x fewer code flaws going unnoticed than Opus 4.7 > Has a Fast Mode at 2.5x speed, now 3x cheaper > The same $5/$25-per-M token pricing

译Claude Opus 4.8现已在AI/ML API上线🔥 根据测试： > 与Opus 4.7相比，其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式，现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 [引用 @aimlapi]：Claude Opus 4.8已在AIMLAPI上线 - 首发可用！ ~与4.7相比，代码缺陷漏检的可能性降低约4倍快速模式2.5倍速度，现在价格便宜3倍价格不变：$5/$25每M tokens 为庆祝上线，部分评论者可免费使用

meng shao@shao__meng · 5月29日76

Claude Code 推出 Dynamic Workflows：从「一个 agent 干到底」升级到「agent 自己当项目经理 + 调度层」，标杆案例是 Bun Zig → Rust 迁移！让 Claude Code 根据任务现场生成编排脚本，在单次会话里启动数十到数百个并行 subagent，并在结果交付前做独立验证。把原本需要多轮人工规划、分阶段推进的大型工程任务，压缩成可端到端自动跑完的长任务。 https://claude.com/blog/introducing-dynamic-workflows-in-claude-code Dynamic Workflows 解决什么问题？ · 上下文窗口有限：拆子任务，并行 fan-out · 单视角易漏检/误判：多 agent 独立探索 + 对抗性 refute · 长任务易中断丢失：进度持久化，断点续跑 · 对话上下文被协调信息污染：协调逻辑在对话外执行，主线程保持单一结论工作机制（技术逻辑）用户 prompt ↓ Claude 动态规划（非固定 pipeline） ↓ 拆分子任务 → 并行 subagents（数十~数百） ↓ 独立产出 → 验证/对抗审查 → 收敛迭代 ↓ 汇总为单一协调结果 → 交付用户几个值得注意的设计点： · 动态编排：脚本由 Claude 现场写，不是固定 workflow DSL；任务形态变化时更灵活，但也更难预测 token 消耗。 · 对抗式收敛：不只「多 agent 投票」，还有 agent 专门反驳其他 agent 的结论，迭代到答案稳定——类似 ensemble + red team。 · 长时运行：官方称可持续数小时到数天；协调在会话外，避免对话 token 被中间状态撑爆。 · 首次触发需确认：第一次启动 workflow 时会展示即将执行的内容，用户确认后才跑——成本与范围的可控闸门。和 Claude Code 现有能力的关系明确把它放在「单个 subagent」和「完整 agent team（需人工搭建）」之间： · 单个 subagent：轻量、快，但 scope 有限 · 完整 agent team：灵活、可见，但搭建成本高 · Dynamic Workflows：Claude 自动决定是否启用、如何编排，用户只需提需求或开 ultracode 这是 agent 编排层的 productization——把多 agent 协作从「高级用户自建」变成「模型自决策调用」。标杆案例：Bun Zig → Rust 迁移 Jarred Sumner 用 dynamic workflows 完成 Bun 从 Zig 到 Rust 的移植（尚未 production）： · ~75 万行 Rust · 99.8% 现有测试通过 · 首 commit 到 merge：11 天流程示意： · 一个 workflow：为 Zig 代码中每个 struct field 映射正确的 Rust lifetime · 下一个 workflow：并行 port 每个 .zig → .rs，每文件配 2 个 reviewer · Fix loop：驱动 build + test 直到全绿 · 后续 overnight workflow：优化不必要的数据拷贝，每个改动单独开 PR 这说明 workflow 不只用于「读/审」，也用于大规模写 + 验证 + 修复闭环——接近小型软件工厂的运作方式。

译Claude Code 推出 Dynamic Workflows 功能，将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本，在单次会话中启动数十至数百个并行 subagent，并对结果进行独立验证，从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码，99.8% 现有测试通过，从首次 commit 到 merge 仅用时 11 天。

StepFun@StepFun_ai · 5月29日64

Day-0 SGLang support. Thanks @lmsysorg for moving so fast.

译SGLang宣布其推理框架现已对阶跃星辰（StepFun AI）的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型，具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一，V*得分为95.3。在智能体工作流方面，它在ClawEval-1.1上以67.1分领先，展现出可靠的长期工具编排能力；在软件工程任务中，于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文，并提供3种推理级别以平衡速度、成本与深度。

Berryxia.AI@berryxia · 5月29日39

hugging face的创始人Victor M使用Opus 4.8 使用three.js 构建通过了这个波音747飞机的测试，我一会试试能不能复刻一个类似的场景，试试Opus的能力如何！

译Hugging Face的创始人Victor M使用Opus 4.8，通过three.js构建并通过了这个波音747飞机的测试，我一会试试能不能复刻一个类似的场景，试试Opus的能力如何！

Berryxia.AI@berryxia · 5月29日64

兄弟们，Cursor 也支持最新的Opus 4.8了。不用更新客户端，直接就可以切换使用！

karminski-牙医@karminski3 · 5月29日62

Claude-Opus-4.8 实测! medium 不太行? Claude-Opus-4.8 刚刚发布! 赶紧给大家带来实测! 这次使用了全新打磨的测试集, 使用光线追踪渲染一个3D场景, 多光源多材质. 可以看到定格后开始去噪渲染效果还是不错的. 但是需要注意一点, 滚动的那个光源应该垂直撞向墙壁的, 而不是水平, 所以怀疑这一带 opus 的空间理解能力可能是下降了的. 演示视频中用的是 xhigh. 如果使用 medium, 是无法完成这个测试的, 写的 shader 有问题直接炸了. 详细测试稍后放出! 敬请期待! (感觉已经堆了好多了, 都在测, 我尽量不鸽...) #claudeopus48 #opus48 #claude

译Claude-Opus-4.8 刚刚发布，用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下，初始去噪渲染效果不错，但发现一处本应垂直撞墙的光源移动轨迹呈水平，疑似模型空间理解能力下降。在 medium 设置下，因生成的 shader 有问题，测试直接失败无法完成。详细测试报告将后续发布。

ginobefun@hongming731 · 5月29日70

http://x.com/i/article/2060134439691403264 # BestBlogs 早报 · 05-29｜Claude Opus 4.8、Anthropic H 轮融资、动态工作流发布在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-29 ## 导语 Anthropic 今天同时放出三枚重磅：旗舰模型 Claude Opus 4.8 在编程与推理基准上全面超越上代，代码诚实度提升四倍；H 轮 650 亿美元融资让估值逼近万亿美元，年化收入已超 470 亿美元；配套推出的 Claude Code 动态工作流，可在单次会话内编排数百个并行子智能体，把「一个人 + AI」能处理的任务边界再次推远。三条消息相互咬合，AI 能力、商业规模与工程基础设施同步跃升，这一天值得仔细读。除了 Anthropic 的三连发，今天还有 Neuralink 联合创始人谈脑机接口产业化路径、Cognition 与 OpenInspect 谈后台异步智能体架构、Devin 背后的技术团队对「浪费 Token 节省时间」范式的思考，以及阿里、腾讯工程师对多智能体协作与 AI 知识显形化的一手观察。此外还有 Cloudflare 构建内部数据智能体的工程实践、Slack 三年多云 AI 架构演进，以及 Meta 2026 年股东大会扎克伯格的四大 AI 战略。整份早报内容密度很高，下面我们从三篇精讲开始。 ## 精讲一：Claude Opus 4.8 发布 Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8，在编程、智能体、推理、知识工作四大类基准中全面超越上代的 Opus 4.7。阅读请访问 BestBlog 这次升级最值得关注的突破来自「诚实度」层面：Opus 4.8 对自身代码缺陷视而不见的概率降低了约四倍。换句话说，当模型写出存在缺陷的代码时，它能更主动地识别问题并告知用户，而不是继续往下执行，直到系统崩溃才被发现。这听起来像是一个工程细节，但在智能体应用场景中，它实际上是整个系统稳定性的关键变量。为什么「诚实度」是这次最重要的升级在单步问答场景中，模型对自身输出的错误诊断能力还不算致命弱点——用户可以很快看到问题并反馈。但在多步骤的智能体工作流中，模型在第一步犯了错误却没有意识到，会导致后续所有步骤在错误的基础上继续推进，最终产生难以回溯的连锁失败。诚实度提升四倍，意味着这类「盲目前行」的概率大幅下降，系统整体的自我修复能力显著增强。这一特性与今天同步发布的动态工作流密切相关。当系统需要编排数十到数百个并行子智能体时，每一个子智能体都需要能够准确评估自己的输出质量，并在判断结果异常时主动终止或请求确认，而不是把错误无声地传递给下游节点。Opus 4.8 的诚实度提升，从根本上改善了这类多智能体系统的可靠性基础。三项配套新功能同步落地与 Opus 4.8 同步推出的还有三项工程层面的新能力。第一，Claude Code 动态工作流——单次会话内可以动态编写编排脚本，并行运行数十乃至数百个子智能体，专为全代码库漏洞排查、大规模迁移、独立验证等超大型任务设计。这实际上是把过去需要外部编排框架才能完成的多智能体调度，内化到了 Claude Code 自身的能力范围之内。第二，claude.ai 新增「努力控制」滑块，用户可以手动调节模型的思考深度，在响应速度和推理质量之间按需权衡。这对于不同类型的任务非常实用：快速问答可以拉低思考深度换取速度，复杂的代码审查或架构分析则可以拉满推理深度换取准确性。第三，API 新增任务执行中实时更新指令的能力，允许外部系统在运行过程中向 Claude 注入新的上下文或修改执行参数，而不必等到任务完成后重新发起请求。这对构建长周期智能体系统意义重大，尤其是那些需要根据实时环境反馈动态调整策略的场景。早期测试者的验证 Databricks 和 Devin 是本次发布的早期测试伙伴。Databricks 侧重于评估 Opus 4.8 在复杂数据工程任务上的判断力，反馈认为其在面对歧义指令时的决策质量有显著提升，尤其是在需要对数据管道中的异常情况作出判断时，模型不再轻易给出一个看起来合理但实际上错误的答案；Devin 则专注于智能体可靠性测试，验证了 Opus 4.8 在长任务链中的稳定性明显优于上代，具体体现在多步骤代码修改场景中的错误传播率显著降低。值得注意的是，这次性能全面提升的同时售价维持不变，对于已经在使用 Claude API 的工程团队来说是直接利好，不需要任何迁移或额外成本，可以立即切换。 ## 精讲二：Anthropic 完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元 Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值 9650 亿美元，距离万亿美元市值仅一步之遥。这是 AI 行业迄今规模最大的单轮融资之一。阅读请访问 BestBlogs。投资方构成与战略意图本轮融资由 Altimeter、Sequoia Capital 和 Dragoneer 联合领投，三家均是顶级成长期基金，领投本身即是对 Anthropic 商业化路径的高度背书。更值得关注的是投资方的结构性构成：超大规模云厂商出资共计 150 亿美元，其中亚马逊单独贡献 50 亿，进一步强化了双方在 AWS Bedrock 上的深度合作关系；Micron、三星、SK 海力士三家半导体巨头以战略投资者身份参与，意味着 AI 计算基础设施层面的供应链关系已从商务合作升级为资本层面的利益共同体。半导体厂商投资 AI 模型公司，是在押注下游需求——他们相信 Claude 将消耗越来越多的芯片资源。收入规模与商业化速度 Anthropic 披露的年化经常性收入已突破 470 亿美元。从历史数据看，这一数字意味着在不到两年的时间里，Anthropic 从一家专注安全研究的实验室演变为具备真实规模收入的商业公司，增速远超此前大多数分析师的预测。资金将主要用于三个方向：持续推进安全与可解释性研究（这是 Anthropic 区别于其他 AI 公司的核心定位）、扩充与 AWS、Google Cloud、Broadcom、SpaceX 的算力合作，以及规模化 Claude Code 和 Cowork 产品线。「首个多云前沿模型」的战略意义本次融资完成后，Claude 成为首个同时登陆 AWS、Google Cloud 和 Microsoft Azure 三大主流云平台的前沿 AI 模型。这一多云覆盖在商业层面意义深远：企业客户可以在不切换云厂商的前提下接入 Claude，大幅降低了迁移成本和采购门槛。对于已经在某一云平台深度锁定的大型企业，这意味着将 Anthropic 产品纳入技术栈的阻力几乎降为零。同时，多云部署也为 Anthropic 自身提供了更强的议价能力，避免对单一云厂商形成过度依赖。结合今天 Opus 4.8 的发布和动态工作流的推出，Anthropic 正在同步提升技术壁垒与商业覆盖面，形成正向飞轮：更强的模型吸引更多企业客户，更多企业客户产生更多收入，更多收入支撑更大规模的研究投入，更大规模的研究投入再产生更强的模型。对于关注 AI 行业格局的读者来说，今天的融资消息是观察这条飞轮转速的最新刻度。更值得关注的是，在当前主流 AI 公司中，Anthropic 是为数不多将「AI 安全」作为核心竞争定位、同时实现商业规模突破的公司，这种组合在过去一直被认为存在根本性张力，而今天的融资数字表明，市场给出了明确的答案。 ## 精讲三：动态工作流功能发布 | Claude Claude Code 正式推出动态工作流（Dynamic Workflows），这是 Claude Code 迄今最重要的架构级升级，标志着 AI 编程助手从「增强单人工作」迈向「编排多智能体系统」的新阶段。阅读请访问 BestBlogs。动态工作流解决的核心问题传统的单智能体模式存在一个根本性限制：单个上下文窗口的容量和注意力是有限的，面对需要同时处理数百个文件、跨多个系统并行验证、需要独立判断相互依赖任务的场景时，单智能体的表现会显著退化。这不是提示词工程能解决的问题，而是架构层面的约束。动态工作流的设计思路是让 Claude Code 在单次会话内自动编写编排脚本，然后将任务拆解并分发给数十至数百个并行运行的子智能体，每个子智能体负责一个具体的、边界清晰的子任务。编排脚本本身由 Claude Code 动态生成，而不是需要工程师手动定义——这是关键的差异，它意味着工程师只需要描述目标，不需要预先设计执行框架。典型应用场景官方给出的三类核心场景清楚地说明了动态工作流的适用边界：全代码库漏洞排查，需要同时分析数百个文件并保持跨文件的上下文关联，同时在多个代码路径间并行追踪安全漏洞；大规模代码迁移，将代码库从旧框架迁移到新框架时，需要对每个迁移单元进行独立的语义验证和测试；独立验证场景，用多条并行路径对同一个问题独立求解，再对比结果以提高可靠性。这三类场景的共同特征是任务总量超过单窗口容量，且子任务之间可以并行处理，不需要严格的串行依赖。「ultracode」模式与使用建议新增的「ultracode」模式让 Claude Code 可以自动判断何时启用动态工作流，无需手动指定启动参数。当前以研究预览形式上线，支持 CLI、桌面版、VS Code 扩展以及各主要云 AI 服务（包括 AWS Bedrock、Google Cloud Vertex AI 等）。官方特别提示：动态工作流的 Token 消耗远高于普通会话，因为多个子智能体并行运行会同时占用大量算力。建议从范围明确、边界清晰的任务起步，逐步摸索适合自己工作流的使用节奏，避免因任务边界不清导致子智能体无限扩张。这与 Opus 4.8 今天同步发布的「努力控制」功能形成配合：努力控制决定每个节点的推理深度，动态工作流决定是否开启多智能体并行模式，两者共同构成新一代智能体工程的核心调节机制。从更长的时间尺度来看，动态工作流代表了一个重要的范式转变：AI 系统的边界正在从「一个人能做什么」扩展到「一个人加上 AI 编排的智能体集群能做什么」。这条线的移动，会在未来几年持续重塑软件工程师的工作方式。从今天开始，衡量一个工程师或团队产能上限的，不再只是个人技能和团队规模，还包括他们编排和调度 AI 智能体集群的能力。这是动态工作流真正深远的意义所在，也是今天这篇发布值得每个从事技术工作的人认真读一遍的理由，无论你现在是否在直接使用 Claude Code。 ## 速览异步智能体时代 — Cognition 的 Walden Yan 与 OpenInspect 的 Cole Murray（Latent.Space） Cognition CPO Walden Yan（Devin 背后的核心人物）与 OpenInspect 创始人 Cole Murray 深度对话，探讨后台异步智能体的兴起与 2025 年 12 月的模型拐点。核心判断：本地编码工具只是起点，下一阶段是自主云端智能体系统，架构设计需要从「同步响应」转向「异步任务处理」。这与今天 Claude 动态工作流的方向高度吻合，值得对照阅读，了解行业视角与产品落地之间的呼应。 Dubbing v2 发布：革命性的全新配音模型（ElevenLabs Blog） ElevenLabs 推出 Dubbing v2，支持 90 多种语言，核心突破是在翻译的同时保留原说话者的情感色彩、语调起伏和发音节奏。视频本地化不再是「用另一种语言重新念一遍」，而是「用另一种语言说出同一个人的声音」。对内容团队、媒体公司和教育平台有直接的落地价值，国际化内容生产的门槛将显著降低。 Neuralink 联合创始人 DJ Seo：脑机接口与 AI 融合的竞赛内幕（Sequoia Capital） Neuralink 联合创始人 DJ Seo 亲口讲述公司如何将脑机接口从实验室研究推向真实患者——第一批瘫痪患者已通过植入设备恢复了对数字世界的控制能力。他还透露了即将推出的视觉恢复技术，并阐述了高带宽 AI-大脑融合的长期愿景。这场 Sequoia Capital 的访谈是理解脑机接口产业化现状最直接的一手视角，观看时长约一小时，信息密度很高。 Harness 的尽头不是缰绳，是镜子：AI 时代最沉默的那场革命（腾讯技术工程）文章提出「显形」这个概念：AI 的真正价值不在于替代人类工作，而在于迫使我们将长期以来只存在于脑中的隐性知识、判断标准和团队品味首次文本化。这是一场不可逆转的认知革命——一旦开始用 AI 协作，你就必须说清楚自己到底想要什么，这个过程本身就是对知识的梳理与沉淀。观点犀利，适合和工程师、产品经理一起读，会引发很多共鸣。从语言涌现到协作涌现：如何让 AI 产生高质量决策（阿里技术）阿里工程师提出 Agent Room 概念：将多个 AI 智能体置于共享上下文场中，让它们互相修正、沉淀任务、执行验证，从而实现从流程自动化到协作涌现的跨越。文章完整记录了团队从「流程自动化」到「全链路自动化」再到「协作涌现」的三阶段演进路径，是少见的有具体工程经历支撑的理论框架，与今天动态工作流的官方叙事形成很好的对照。 143. 对何小鹏的第二次访谈：更大赌注、人形机器人 Iron 诞生、那场意外、技术剧变下 CEO、GX 和缝合怪（张小珺Jùn｜商业访谈录）何小鹏详述小鹏汽车从智能电动汽车向「物理 AI 企业」的战略转型：放弃旧自动驾驶体系、all-in 人形机器人 Iron，坦言两成胜率，也谈了技术剧变中 CEO 的焦虑与决策方式。这次访谈比上一次更深入，何小鹏的坦诚程度也超出预期。想了解中国汽车加机器人赛道真实状态的读者不容错过。浪费 Token，节省时间：Naval 与三位前沿创始人谈 AI 如何重塑软件工程（Naval） Naval 与三位前沿创始人（包括 Devin 团队成员）探讨「软件工厂」范式：用 AI 智能体替代手动编码，核心逻辑是「浪费算力换人力」。他们同时质疑了纯软件护城河的未来——当任何人都能用 AI 快速复制软件功能时，差异化究竟从哪里来？结论指向数据、网络效应和品牌，而非代码本身。 ## 补充阅读推理优化、扩散模型、世界模型等前沿 AI 研究 | YC Paper Club（Y Combinator）首届 YC Paper Club 汇集顶尖创始人和研究者，集中讨论推理加速（Speculative Speculative Decoding）、机器人控制、世界建模、泛化理论和数据效率五个方向的前沿论文。对 AI 基础研究保持跟踪的读者和研究者值得看。我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体（The Cloudflare Blog） Cloudflare 工程团队详述如何从数据孤岛走向统一数据平台 Town Lake，并在其上构建 AI 智能体 Skipper，让任何员工都能用自然语言查询数十亿级别的业务数据。正在构建企业内部数据智能体的团队有直接参考价值，Cloudflare 的规模与复杂度让这个案例的代表性很强。 Slack AI：通往多云之路（Slack Engineering） Slack 工程团队完整记录了从 AWS SageMaker 到 AWS Bedrock + GCP Vertex AI 多云架构的三年演进历程，动因是运营效率、模型灵活性和企业级可靠性的综合需求。是少见的多云 AI 基础设施实战案例，结合今天 Anthropic 的多云战略更有参考意义。当你的客户是 AI 智能体：B2B 企业如何在买家变成 AI 智能体时保持可见（freeCodeCamp） 96% 的 B2B 企业在 AI 驱动的采购流程中是「不可见」的——AI 智能体在为买家筛选候选供应商时，大多数企业根本不在考虑范围内。文章分析了成为「AI 可发现」所需的三项基础设施决策。适合 B2B 产品和营销负责人，这是一个正在发生的结构性变化，需要提前布局。 Skill 文档也能训练？SkillOpt：把 Agent 的经验写进一份可优化说明书（AINLP）微软论文 SkillOpt 的中文解读：把 Agent 的 Skill 文档当成可训练的外部状态，通过 rollout、反思、受限编辑和验证门控实现自动迭代优化，在 52/52 的测评项中达到全部 best 或 tied-best。正在做 Agent 工程化的团队有直接启发，这是一个低成本改善 Agent 表现的方向。 Cursor 开发者习惯报告：AI 编程趋势洞察（Cursor） Cursor 发布《开发者习惯报告》，基于其全球最完整的 AI 编程数据集分析 AI 工具采纳规律。想了解 AI 编程工具在真实开发者群体中如何传播和使用的读者，这份报告是目前数据支撑最扎实的参考之一。 SpaceX 自研 C 语言 AI 训练栈，面向 22 万块 GB300 GPU（Elon Musk） SpaceX 即将完成用 C 语言编写的定制 AI 训练栈 V1.0，精确映射 22 万块 NVIDIA GB300 GPU，声称对大规模训练任务相比 JAX 有超过一个数量级的速度提升。AI 训练基础设施向高度定制化方向演进的一个信号，关注 AI 算力投资的读者值得了解。社会科学中的编码智能体（Anthropic Research） 1260 名社会科学家调查显示：81% 用过 AI 聊天机器人，但只有 20% 使用过编码智能体，且采用率在性别、职业阶段和大学声望方面存在明显分化。早期用户发表了更多工作论文，但期刊投稿量并未增加。数据有趣，适合关注 AI 工具在非工程领域扩散规律的读者。 AI 破晓：生成式 AI 时代文化产业的重塑、跃迁与守望 | 4 万字报告（腾讯研究院）腾讯研究院联合中国传媒大学发布 4 万字研究报告，覆盖短视频、长视频、网络文学、音乐、游戏等多个内容形态，提出生成式 AI 对文化产业的全链条影响框架，包含近 1900 份有效问卷和 20 余位从业者访谈。体量大，适合对文化产业与 AI 交叉领域感兴趣的读者周末细读。一文读懂 Meta 2026 年股东大会：扎克伯格豪赌 AI 四大方向，十项股东提案全被否（腾讯科技） Meta 2026 年股东大会核心内容速览：12 名董事全部连任，10 项股东提案全被否，扎克伯格重点阐述核心应用 AI 化、个人智能体、商业智能体、AI 硬件四大方向，资本支出 1150 亿到 1350 亿美元，几乎是去年两倍。想了解 Meta AI 战略全貌的读者值得一读，结合今天 Anthropic 的融资新闻对照来看格局感更强。 ## 今日阅读路径时间有限时，建议按以下顺序读三篇： 1. Claude Opus 4.8 发布——今天最值得优先读的一篇。Opus 4.8 的「诚实度」提升不是边际改进，而是智能体工程的基础性突破。读完这篇再看动态工作流，会有更清晰的整体感：能力升级和工具升级是同步设计的，不是各自独立的公告。 1. 动态工作流功能发布 | Claude——紧接着读这篇，理解并行子智能体架构的设计逻辑和适用边界，以及「ultracode」模式的实际使用建议。这是今天三篇精讲中最有工程实操参考价值的一篇。 1. Harness 的尽头不是缰绳，是镜子——用腾讯工程师的视角把前两篇「落地」：模型能力再强，真正的价值在于迫使团队将隐性知识显形化。这篇文章是今天所有 AI 进展最好的人文注脚，读完会对「为什么我们需要更强的 AI」有更深的理解。如果还有时间，加读从语言涌现到协作涌现——阿里工程师对多智能体协作的一手实践记录，与今天的 Claude 动态工作流官方叙事形成很好的互补：一篇是工具方的视角，一篇是实践者的视角，放在一起读收获更大。再有时间的话，Anthropic H 轮融资值得完整读一遍——里面关于多云战略和投资方构成的细节，能帮助你理解 AI 行业的资本与技术如何同步运转。

译Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

ginobefun@hongming731 · 5月29日78

#BestBlogs 早报 05-29 Anthropic 今天同日放出三条重磅，推荐阅读： - 旗舰模型 Claude Opus 4.8 全面升级，代码诚实度提升四倍； - 650 亿美元 H 轮融资让估值逼近万亿美元； - Claude Code 推出动态工作流，单次会话可调度数百个并行子智能体处理超大任务。

译Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著，代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资，估值逼近万亿美元。此外，Claude Code 推出动态工作流，支持在单次会话中调度数百个并行子智能体以处理超大规模任务。

ginobefun@hongming731 · 5月29日76

Anthropic 今天发布了旗舰模型 Claude Opus 4.8，是 Opus 4.7 的全面升级版。在编程、智能体、推理、知识工作四个维度的基准测试中，Opus 4.8 都超过了上一代。其中最值得注意的是「诚实度」的改变，模型对自己写出的有缺陷代码视而不见的概率，降低了约四倍。也就是说，它更愿意承认自己的错误，而不是强行辩护。这次发布同步带来了三个新功能。第一个是 Claude Code 里的动态工作流，可以在单次会话内启动数十甚至数百个并行子智能体，专门用来处理大规模、跨文件的复杂任务，比如全代码库的漏洞扫描和大型代码迁移。第二个是 http://claude.ai 上的「努力控制」，用户可以手动调整模型的思考深度，用更少的 Token 处理简单问题，把算力留给真正需要的地方。第三个是 API 层面支持在任务执行途中实时更新指令，不必中断整个流程重新开始。来自 Databricks、Hebbia、Devin 等团队的早期测试者反馈说，模型在判断力和可靠性上有明显改善，尤其在长时间自主运行的任务里表现更稳。价格和 Opus 4.7 保持一致，没有涨价。

译Anthropic 发布旗舰大语言模型 Claude Opus 4.8，作为 Opus 4.7 的全面升级版，其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升，对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能：Claude Code 支持动态工作流，可启动并行子智能体处理复杂任务；claude.ai 提供“努力控制”功能，允许用户调整模型思考深度；API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显，价格与 Opus 4.7 保持一致。

ginobefun@hongming731 · 5月29日63

Claude Code 今天推出了一个叫「动态工作流」的新能力，专门解决单个智能体一次跑不完的大型任务问题。简单说就是，Claude 现在可以在一次会话里动态生成编排脚本，然后同时启动数十甚至数百个并行子智能体，每个子智能体独立完成一部分工作，最后由主流程汇总结果再交给用户。整个过程中 Claude 会自己检查中间产物，不需要用户全程盯着。这个功能最适合三类场景：全代码库的漏洞排查、需要大规模改动的代码迁移、以及必须经过独立交叉验证的关键任务。这些场景过去要么需要人工拆分成很多小任务逐个执行，要么干脆放弃用 AI。新版还加入了一个「ultracode」模式，可以让 Claude 自己判断什么时候该启动工作流，不需要用户手动触发。目前动态工作流以研究预览的形式上线，支持 Claude Code CLI、桌面版、VS Code 扩展，以及各主要云 AI 服务。需要注意的是，动态工作流消耗的 Token 量会比普通对话高很多，官方建议从范围比较明确的任务开始试，不要一上来就跑特别复杂的项目。最直观的案例是官方提到的 Bun 的工程团队，用动态工作流在 11 天内把 Bun 的大部分代码从 Zig 迁移到了 Rust，而且测试通过率达到 99.8%。这个数字说明并行子智能体在大型工程任务里已经开始产生真实价值。

译Claude Code 发布了名为「动态工作流」的研究预览功能，旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本，同时启动数十至数百个并行子智能体协同工作，并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式，可由 Claude 自行判断是否启动工作流。案例显示，Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移，测试通过率达 99.8%。需要注意的是，动态工作流消耗的 Token 量会显著增加，官方建议从任务范围明确的项目开始试用。

Peter Steinberger 🦞@steipete · 5月29日65

Part of the work was rebuilding leaner and faster dependencies: - http://proxyline.dev - proxy layer - http://fs-safe.io - filesystem safety - http://rastermill.com - Image engine in WASM - http://libopus-wasm.dev - Opus in WASM - http://clawpdf.dev - PDF in WASM

译OpenClaw 通过重构更轻量、更快的依赖库（如 proxyline.dev、fs-safe.io 等）进行优化。根据官方数据，优化后冷启动速度快了 2.9 倍，热启动速度快了 2.5 倍，安装包体积减少了 59%，依赖项数量相比月度高点下降了 42%。核心理念是构建一个更小的核心、明确的依赖关系，并将可选功能以插件形式提供。

Rohan Paul@rohanpaul_ai · 5月29日66

AWS CEO Matt Garman: The idea that AI will replace junior developers is “the dumbest thing I have ever heard.”

译AWS CEO Matt Garman：AI将取代初级开发者的说法是“我听过最愚蠢的事”。

宝玉@dotey · 5月29日71

Cursor 升级后可以用 Opus 4.8 了，有意思的是，它默认隐藏了 Opus 4.7，保留了 Opus 4.6，应该是有什么原因的吧？

SemiAnalysis@SemiAnalysis_ · 5月29日54

The general direction of the codex in app browser UX is pretty good. for web dev Once the codex model itself becomes good at web dev, i would assume all web dev work gonna switch from claude terminal CLI to codex app with in app browser.

译Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

Google AI Developers@googleaidevs · 5月29日52

Save countless hours of manual migration work. Watch messy legacy code autonomously modernize into Next.js in this example from @Antigravity, powered by Gemini 3.5 Flash.

译节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中，由 Gemini 3.5 Flash 驱动，自主现代化为 Next.js。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日84

Anthropic raised $65 billion in Series H at a $965 billion post-money valuation. > Global enterprises across industries are deploying Claude in their core operations, and a growing number of people around the world use it for their everyday work A huge chunk of this growth was triggered by Claude Code. Focusing on coding capabilities and tooling expectedly ended up being the right focus.

译Anthropic已完成650亿美元的H轮融资，投后估值达到9650亿美元。本轮投资由Altimeter Capital等机构参与。公司指出，Claude的增长主要由Claude Code触发，表明聚焦编码能力和工具的策略是正确的。目前，全球企业正将Claude部署于核心业务，个人用户也广泛使用。此轮融资将用于推进研究并扩大产能，以满足不断增长的需求。

MiniMax (official)@MiniMax_AI · 5月29日76

Free agentic coding with MiniMax M2.7 on @OpenHandsDev? Yes, please! Available for a limited time ⚡👀

译在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程？是的，请给我！限时提供 ⚡👀

Peter Steinberger 🦞@steipete · 5月29日30

build the thing that builds the thing. https://openclaw.ai/ecosystem

译构建构建事物的工具。 https://openclaw.ai/ecosystem

Boris Cherny@bcherny · 5月29日88

Claude Opus 4.8 is out today. It's our strongest coding model yet: up on SWE-bench Pro (from 64.3 to 69.2) and noticeably more honest about its own work. It tells you when it's unsure and catches its own bugs instead of declaring victory early. Same price as 4.7.

译Claude Opus 4.8今日发布。这是我们迄今最强的编码模型：在SWE-bench Pro上得分提升（从64.3到69.2），并且对自己的工作更加诚实。它会在不确定时告诉你，并能发现自己的错误，而不是过早宣布成功。价格与4.7版相同。

Rohan Paul@rohanpaul_ai · 5月29日76

Claude Opus 4.8 dropped. - 2.5x faster fast mode, which is also 3x cheaper - has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. - 74.6% on agentic terminal coding is the biggest benchmark jump over Opus 4.7, rising from 66.1% - New “dynamic workflows” feature that allows it to tackle very large-scale problems. - The new leader on our GDPval-AA benchmark for agentic real-world work tasks The dynamic workflows in Claude Code will break a massive engineering task into many smaller jobs, run them through tens to hundreds of parallel subagents, and check the results before handing anything back. A normal coding agent works like one developer reading, editing, and testing in sequence, but dynamic workflows behave more like a temporary engineering team coordinated by Claude. Claude first writes an orchestration plan, which is basically a task map that says what needs to be inspected, rewritten, tested, reviewed, or challenged. Separate subagents then work on different parts of the repo at the same time, so one agent might inspect authentication code, another might port files, another might search for unsafe patterns, and another might try to break the proposed fix. The major change is verification, because Claude does not just collect answers from subagents, but compares them, refutes weak findings, runs checks, and keeps iterating until the results converge.

译Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍，同时成本降低3倍。在agentic终端编码基准测试上，性能从66.1%大幅提升至74.6%，成为GDPval-AA基准的新领导者。新推出“动态工作流”功能，可通过Claude Code将大型工程任务分解为数十至数百个并行子任务，由多个AI智能体协同处理并互相验证。官方介绍称，该版本在判断力、诚实度以及独立工作能力上均有提升，今日起以相同价格提供服务。

宝玉@dotey · 5月29日76

Anthropic 今天发布了 Claude Opus 4.8，价格和上一代 4.7 持平。https://x.com/claudeai/status/2060042709209928018/video/1 它最大的变化是更诚实了：更愿意承认自己不确定，更少为了凑个答案而硬编，对自己干到哪一步也能做出更真实的判断。跑长时间的 agent 任务时，它更像一个靠谱的工程师，不用你时时盯着。同时上线的还有 fast mode【快速模式】，同一个模型，速度大约快 2.5 倍，价格比以前便宜了三倍。在 Claude Code 里用 /fast 打开，API 用户得找客户经理申请或排队。【重头戏是 dynamic workflows】跟着 Opus 4.8 一起放出来的，是 Claude Code 的新功能 dynamic workflows（动态工作流），目前是研究预览。你给它一个大任务，它自己拆解，一次性派出几十到几百个并行的 subagent（子智能体）去干，干完会让另一批 agent 去验证，甚至专门派 agent 去挑刺，反复迭代到结果收敛，最后给你一个整合好的答案。整个过程能跑几小时甚至几天，中途断了还能接着跑。适合的活：整个代码仓库的 bug 排查、安全审计、性能优化，以及最常见的大规模迁移，框架升级、API 替换、跨语言移植，一次涉及上千个文件那种。 Anthropic 把 Bun 用 Rust 重写当做了宣传安利。Bun 是个跑得很快的 JavaScript 运行时，创始人 Jarred Sumner 用 dynamic workflows 把整个项目从 Zig 移植到 Rust，官方说写了约 75 万行 Rust 代码，通过 99.8% 的原有测试，从第一次提交到合并只花了 11 天。【代价：它很烧 token】 Anthropic 罕见地主动警告：dynamic workflows 消耗的 token 比普通 Claude Code 会话多得多，建议先拿小任务试水。第一次触发时，Claude Code 会先把要跑的东西摆给你看、让你确认，企业管理员也可以直接禁用。目前 Max、Team 套餐和 API 用户默认开启，Enterprise 套餐默认关闭，要管理员手动打开。开启方式是直接让 Claude"建个 workflow"，或者打开一个叫 ultracode 的开关。

译Anthropic 发布 Claude Opus 4.8，价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实，能更真实地判断自身进度并承认不确定性，更适合长时间独立运行。同步推出 fast mode，在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows（动态工作流），它能将大型任务拆解，并行派出大量子智能体执行与验证，适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意，该功能消耗的 token 远多于普通会话。

OpenRouter@OpenRouter · 5月29日80

Opus 4.8 is live on OpenRouter! Same price as 4.7 with gains across agentic coding, reasoning, and computer use. Around 4x less likely than 4.7 to let code flaws pass unremarked. Opus 4.8 Fast Mode is also live - now only 2x the cost for 2.5x the speed.

译Opus 4.8 已在 OpenRouter 上线！价格与 4.7 相同，在智能体编码、推理和计算机使用方面均有提升。代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线——现在只需 2 倍价格，即可获得 2.5 倍速度。

AYi@AYi_AInotes · 5月29日63

Cursor真牛逼，这么快就上线了Claude Opus 4.8！

译Cursor已上线Claude Opus 4.

ClaudeDevs@ClaudeDevs · 5月29日83

Opus 4.8 is live in Claude Code today. A few things worth knowing: 🧵

译Opus 4.8今日已在Claude Code上线。几点值得了解：🧵

ClaudeDevs@ClaudeDevs · 5月29日68

New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins up a large fleet of coordinated subagents in parallel to take on your most complex tasks. Use the word "workflow" in a prompt to get started.

译Claude Code 新功能（研究预览）：动态工作流。 Claude 会即时编写一个编排脚本，然后并行启动大量协调的子智能体来处理你最复杂的任务。在提示词中使用“workflow”一词即可开始使用。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日73

ANTHROPIC 🔥: Claude Code now supports "Dynamic Workflows", allowing Claude to complete challenging tasks end-to-end. > Claude dynamically writes orchestration scripts that run tens to hundreds of parallel subagents in a single session, checking its work before anything reaches you. > Some problems are too big for one pass by a single agent, especially in complex, legacy codebases: a bug hunt across an entire service, a migration that touches hundreds of files, a plan you want stress-tested from every angle before you commit to it.

译Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务，Claude 能动态编写编排脚本，在单个会话中并行运行数十到数百个子智能体，并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战，例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出，Claude 会先制定计划，然后运行数百个并行子智能体并验证其工作。

Yuchen Jin@Yuchenj_UW · 5月29日72

Opus 4.8 scores 69.2% on SWE-Bench Pro, 10 points higher than GPT-5.5. Most interesting part of the release blog is “Dynamic Workflows”: “This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user.”

译Opus 4.8在SWE-Bench Pro上得分69.2%，比GPT-5.5高出10分。发布博客中最有趣的部分是“动态工作流”： “这项新功能（目前处于研究预览阶段）允许Claude在Claude Code中承担更大的任务。Claude可以规划工作，然后在单个会话中运行数百个并行子智能体（使用Opus 4.8时，智能体可以运行更长时间）。它在向用户报告之前会先验证其输出。”

Ethan Mollick@emollick · 5月29日64

Here Opus 4.8 built and play-tested a new RPG in Claude Code, including 3 PDF manuals and adventures, playtest notes, a website, and a playable solo adventure - then put it all on Netlify. No feedback from me at all. https://stillpoint-osr.netlify.app

译Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏，包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站，以及一个可玩的单人冒险——然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app

AYi@AYi_AInotes · 5月28日75

http://x.com/i/article/2059309620326211584 # 踩了 3 个坑才把 xAI 新出的 Grok Build CLI 跑通， 0 基础 8 步保姆教程在这！超级详细，从 0 开始，一步一步来，不会的地方我都标出来了！ 1. 先确认你有没有权限（很重要！） Grok Build 目前是 Beta 版，只有以下用户能用： - SuperGrok 订阅者 - X Premium+ 订阅者如果你还没有： - 去 grok.com/supergrok 升级（有 SuperGrok 就能用了）。你的 X 用户名是 @AYi_AInotes，如果你是 Premium+ 用户，直接继续下一步。 2. 安装 Grok Build（1 分钟搞定）打开你的终端（Terminal / 命令提示符）： macOS / Linux 用户（推荐）：复制下面这整行命令，按回车执行： curl -fsSL https://x.ai/cli/install.sh | bash Windows 用户：复制下面这行执行： irm https://x.ai/cli/install.ps1 | iex 安装完后，终端里会提示成功。 3. 第一次使用（登录） 1. 随便找一个你想写代码的文件夹（比如新建一个空文件夹练习）： 1. 输入命令启动 Grok Build：第一次会自动打开浏览器让你登录用你的 X 账号登录（就是登录 Grok 的那个账号）就行了。登录成功后，终端里就会出现 Grok 的交互界面（TUI，全屏漂亮界面）。 4. 最简单的上手玩法（保姆式）启动后（输入 grok 后），你直接在下面输入文字聊天就行。新手推荐的第一个提示词（直接复制粘贴试试）： Grok 会一步步引导你： - 它会思考（显示 Thought for xx s） - 计划（Plan mode） - 编辑文件 - 运行代码你只需要： - 看懂它在干什么 - 按 Enter 确认 - 或者输入文字回复它的问题 5. 核心功能（零基础也要知道的）实用小命令（在 Grok 界面里直接输入）： - /help —— 查看所有命令 - /plan —— 开启计划模式（最安全） - /model —— 切换模型 - /feedback —— 给 xAI 团队提建议（他们每天都在更新） 6. 练习小任务（推荐顺序） 1.最简单：让它解释当前文件夹 2.创建文件： 3.运行代码： 4.复杂一点： 7. 常见问题解决 Q：安装失败 / 命令打不开？ - 确保你是用管理员权限打开的终端 - macOS/Linux 试试加 sudo（不推荐，但可以） - 重启终端再试 Q：登录不上？确认你是 SuperGrok 或 Premium+ 用户 Q：界面太花里胡哨看不懂？输入 /simple 或慢慢看，它会一步一步解释 Q：想退出当前会话？输入 /quit 8. 进阶提示（以后再看） - 在项目根目录放一个 AGENTS.md 文件，可以写你的开发规范，Grok 会自动遵守。 - 支持 Git：它可以自动 commit、push。 - 支持很多语言（Python、JS、Rust、Go… 都行）。现在就行动起来！ 1. 打开终端 1. 粘贴安装命令 1. cd 到一个空文件夹 1. 输入 grok 1. 复制我上面第一个提示词发给它有啥问题评论区留言交流！

译本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版，需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程，以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互，使用`/plan`进入计划模式、`/model`切换模型，并支持自动文件编辑、代码运行以及Git操作。项目根目录的`AGENTS.md`文件可用于自定义开发规范。

AYi@AYi_AInotes · 5月28日58

上周 Cursor 送了我 1 万美金额度，我以为往死里造 7 天怎么也得花到 3000 美金，结果实际一看， 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次，单次最高烧到 672 万 tokens， GPT-5.3 Codex high fast MAX 也几乎天天用。账单只占了 3%，为啥会这样？我觉得是因为大多数人对 AI 编程成本的算法是错的。你以为按 token 单价算， MAX 模型一次比 mini 贵 10 倍，所以肯定烧钱。但实际上 MAX 模型能一次就把事想清楚，而 mini / Sonnet 来回试错的 token 加起来，往往是 MAX 一次的 3-5 倍。所以贵的反而便宜，便宜的反而贵。 Boris Cherny（Claude Code 之父）有一句话其实讲透了这件事：计划做得好，代码自然好。换句话说，省钱的终极方式不是切便宜模型，因该让最聪明的模型一次就把活干完。 Cursor 送1 万额度也不是怕你不够用，我理解估计是怕你不敢用。如果大家还在切 MAX 模型时心疼，切完之后试着算一下总账单，你会发现，其实你一直在用看似便宜的方式偷偷烧钱。所以放手用就完事了铁铁们！ #Cursor #ClaudeCode #AICoding

译用户获赠Cursor 1万美金额度，高强度使用7天（包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX，单次最高达672万 tokens）后，实际账单仅约300多美金。核心观点是：许多人按 token 单价估算成本是错误的，MAX 等高端模型往往能一次完成任务，而便宜模型需多次试错，总 token 消耗反而达3-5倍，导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好，代码自然好”，指出省钱关键是让强模型一次做对。结合引用推文背景，Cursor在被收购后能力显著增强，不仅能写代码，更能直接交付可用的产品成品（如10秒生成可交互雷达图），更像“全职执行助理”，进一步支持了“放手使用高效工具”的结论。

Artificial Analysis@ArtificialAnlys · 5月28日62

Overview of our recent launch of Coding Agent benchmarks on Artificial Analysis and our first Youtube Video! We walk through the performance, cost, token usage and speed differences across different coding agents. This includes looking at Opus 4.7 in Claude Code's leading performance and Composer 2.5's strong positioning on the Coding Agent Index / Cost Pareto frontier. We have also launched our YouTube channel! Come say hi and subscribe: https://www.youtube.com/@ArtificialAnalysisAI

译我们近期在 Artificial Analysis 上发布了编程智能体基准测试，并推出了首个 YouTube 视频！我们详细分析了不同编程智能体在性能、成本、token 使用量和速度方面的差异。其中包括 Claude Code 中 Opus 4.7 的领先表现，以及 Composer 2.5 在编程智能体指数/成本帕累托前沿上的强劲定位。我们还推出了 YouTube 频道！欢迎访问并订阅：https://www.youtube.com/@ArtificialAnalysisAI

Tibo@thsottiaux · 5月28日63

Excited to see more independent benchmarks like that which are not contaminated (trained on by major models).

译新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示，在编程任务上，GPT-5.5 得分为 70%，而 Claude Sonnet 得分为 32%，两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力，即能否仅凭简短提示词，准确定位代码库并干净地完成修改，无需用户列举具体文件。原文指出，这验证了许多开发者长期以来的观察，并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

Elon Musk@elonmusk · 5月28日45

Grok Build improvements

译Grok Build 发布更新，主要修复与优化。此次改进包括修复斜杠菜单与历史搜索的导航、恢复子智能体 UI 及会话续接。针对 Windows 平台，修复了 Ctrl+Delete 快捷键，并支持拖拽截图及 Ctrl/Alt+V 粘贴图像输入，同时为 Ctrl+Enter 等命令添加了 Windows 友好替代方案。在图像处理方面，优化了管线以修复截断等问题，并将 read_file 工具调用中的 base64 图像剥离，作为多模态视觉 token 传递。此外，更新共享了子智能体会话的后端与监控，并新增 /login 和 /usage 命令。

向阳乔木@vista8 · 5月28日69

这个AI编程辅助插件有意思：Plannotator AI生成技术文档和方案后，你说用Plannotator标注下。文档会发到本地浏览器界面，在网页里能批注、删除、编辑替换 AI 给的方案。文档还能分享给同事，大家一起Review标注问题。确定没问题了，点击Approve执行。支持Codex、Claude Code、PI、Gemini等所有工具。对用 Cli 编程的人来说，大段技术方案文档，用网页来仔细查看，像飞书文档一样划线点评，再交给AI执行。这样感觉更方便、更靠谱。安装指令见评论区

译AI编程辅助插件Plannotator允许用户在AI生成技术文档后，通过本地浏览器界面进行协作批注、编辑替换。文档可分享给同事进行Review，确认后点击Approve执行。该工具支持Codex、Claude Code、PI、Gemini等所有CLI编程工具，提供了像飞书文档一样的划线点评体验，让AI生成的方案能被仔细查看、修改和确认。

向阳乔木@vista8 · 5月28日71

如果你不会写 Agents.md ，可以直接抄作业。或把高手的Agents 内容粘贴给你的Codex或Claude Code。让学习其中有价值的内容，合并到自己的Agents文件。比如有几条就很实用： ① 当用户纠正、反驳、表达不满，或本次任务暴露出可复用教训时，完成当前任务后提出一条精简规则更新建议。先判断作用域：全局、项目或不沉淀；提出 diff，等用户确认后再改。 ② 说话直接，不奉承。不同意时给具体理由；不确定的技术事实要验证或明确说不知道，不能编造模型名、API、CLI 参数、环境变量或版本信息。 Agent 文件地址见评论

译本文介绍了为AI智能体（如Codex、Claude Code）编写指令文件（如Agents.md）的一种实用方法。核心建议是直接复制高手的Agents文件内容，粘贴给工具，让其学习并合并有价值的部分。文中强调了两个关键实践：一是当用户纠正问题时，应提出精简的规则更新建议，并区分作用域；二是要求智能体说话直接，对不确定的技术事实必须验证或明确表示不知道。

Berryxia.AI@berryxia · 5月28日41

AI Native的公司竟然都已经完全Agent化了？是夸大还是真实如此？ 50百万人在用自然语言造软件，却一行代码都没写过。这就是Replit + Claude正在发生的真实故事。 Michele Catasta 16岁时就立志要让每个人都能轻松创建软件，今天Replit已经让5000多万人通过自然语言在平台上构建真实应用。他们和Claude的合作紧密到新模型一发布，当天就能上线新版Replit Agent。编程的门槛彻底消失了，普通人只要用对话，就能把脑子里的想法变成能跑的网站、App和工具。这才是AI真正改变世界的样子：不再是取代程序员，更像是让“不会写代码”的人也能成为创造者。

译Replit平台与Claude深度合作，新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用，实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势，让非程序员也能成为软件创造者。

ginobefun@hongming731 · 5月28日66

http://x.com/i/article/2059794481965408257 # BestBlogs 早报 · 05-28｜Claude Code 路径、分布式 RL 训练、SaaSpocalypse 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-28 今日精选聚焦 AI 编程工具的「引擎室」：Anthropic 设计负责人 Megan 亲述 Claude Code 如何从 12 人 CLI 实验起步，在一年内拿下 51% 市场份额；Cursor 与 Fireworks 公开 Composer 2 分布式 RL 训练内幕，揭示从应用包装层到自训练基础模型的工程路径。与此同时，一篇关于「SaaSpocalypse」的深度文章正面拆解：当 Agent 直接调 API、绕过 SaaS 界面层，谁会最先倒下，Software 3.0 时代工程师的角色又将如何重写。 ## 导语 2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步——它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。速览板块还覆盖了 ESMFold2 在蛋白质预测领域的「苦涩教训」时刻、Lyft 用 LangGraph 把 Agent 开发周期从半年压缩到数周的工程实践、Vibe Coding 遭遇安全清算的真实案例，以及 Airtable、Fireworks 的基础设施故事。 ## 精讲一：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 Claude Code 的起点比大多数人想象的低得多。2024 年，Anthropic 内部一个 12 人团队决定试验一个想法：把 Claude 接入命令行，直接操作文件系统。第一个原型配置需要整整一个小时，距离所谓「产品」还差得很远。但早期内部演示视频在 Slack 流传后，团队意识到方向是对的。接下来三个月，他们专注于三件事：打磨用户体验、消灭平台 Bug、大量内部使用积累信心。这种「先内部高强度使用，再对外发布」的节奏，成为 Claude Code 后续迭代的基本范式。什么让 Claude Code 跑得这么快？ Anthropic 设计负责人 Megan 在 Product School 的分享里，把这归结为三个机制：第一是流动 Pod 结构。传统产品开发里，设计师做设计、工程师写代码、PM 写 PRD——边界清晰但也僵硬。Claude Code 团队打破了这层边界：设计师会直接把代码推到生产环境，工程师主动做用户体验决策。Pod 的规模和构成随功能需求弹性调整，通常是 3 至 5 人，没有固定比例。这种跨职能的流动性，在 AI 加速迭代的环境下释放了显著的执行弹性。第二是把质量关口移到运行时。当 AI 让代码生成速度提升 10 倍，传统的 PRD、静态 Mockup 等质量控制环节就成了瓶颈。Anthropic 的解法是把验收标准前移到真实运行行为：团队内部高频部署原型，监控实际使用模式，用运行时数据而非文档勾选来决定是否推进。这个方法在 AI 原生组织里有深刻意义：它不是「更快写代码」，而是「把反馈回路压缩到极致」。第三是Bottom-up 企业采用。Claude Code 没有走自上而下的销售路线，而是从工程师个人使用开始，自然扩散到团队，再渗透到组织层面。这种采用曲线在金融基础设施、零售等高度监管行业也同样奏效——先赢得工程师，再赢得决策者。度量体系的迁移 Megan 特别强调了一个度量迁移：从 Token 用量转向用户留存与管道营收。这看起来是小事，背后却是产品哲学的转变——衡量 AI 工具价值的标准，从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。管理层须亲自上手、持续操刀 Repo，不是作秀，是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值：领导者的直接参与，是维持迭代弹性的结构性保障，而不仅仅是传递信号。为什么值得深读这篇内容不是产品方法论的泛泛总结，而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用——这三个机制彼此咬合，缺一不可。如果你在思考 AI 原生团队该怎么运转，这是目前能找到的最具体的参照之一。值得额外关注的是 Anthropic 的女性领导力比例：CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实，而是组织文化的折射——一个真正重视多元视角的组织，往往在打破固有边界（比如「设计师不写代码」）这件事上也更有行动力。阅读建议：结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践，Composer 2 是模型训练侧的 AI 原生实践，两者共同勾勒出「AI 原生」的两种形态。阅读链接：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 ## 精讲二：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路：从头训练一个专门为软件工程优化的模型，并且为此搭建了一套异步分布式 RL 基础设施。为什么要自己训模型？ Federico（Cursor 研究负责人）给出了一个直观的类比：LLM 的参数空间就像一块存储介质，位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力；Cursor 的做法是把所有位都集中到软件工程这个窄域，用专注换效率。结果是：更小、更低延迟的模型，在代码编辑任务上超过了比它大得多的通用模型（如 GPT-4 Opus），运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例——在足够窄的领域，专注的数据维度比纯粹的规模更有效。 Composer 2 的双轴训练路径 Composer 2 的训练分两个阶段：第一阶段是持续预训练，以 1 万亿参数 MoE 模型 Kimi 2.5（30B 活跃参数）为基础，大规模运行代码和 web token 的下一个 token 预测，拓宽模型的基础分布，编码基础库知识和工程模式。第二阶段是大规模强化学习。模型进入主动 RL 循环，在 Cursor 环境框架内执行工具调用、获得奖励信号，逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同，RL 阶段的目标是「学会在工具和结果中导航」。异步流水线：让 GPU 全程满负荷标准 RL 管线的一个固有问题是计算空转：推理阶段训练器空转，权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线：推理 Rollout 和权重更新同步进行，GPU 全程满负荷，消除了昂贵计算资源的空转损耗。三个工程难题与解法除了异步流水线，团队还公开了三个关键工程决策： - Delta 权重压缩：在分布式训练中，每次权重更新都需要在全球节点同步，数据量巨大。Delta 权重压缩只传输权重的变化量，把全球同步流量降低了约 20 倍。 - Router Replay Tracking：稀疏 MoE 架构（Sparse Mixture of Experts）的一个棘手问题是数值漂移——不同专家路由的使用频率不均，导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程，保持数值对齐。 - 自摘要上下文压缩：编码智能体在真实工作中会产生超长轨迹，百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力，而不是外挂规则，让智能体在长轨迹中保持推理连贯性。一个值得思考的更大问题 Cursor 的路径揭示了一个范式：当模型训练成本不再是天文数字，专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力，垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证——ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越，只是在生物信息领域，通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。为什么值得深读这篇不是概念介绍，而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层，这篇帮你理解专有模型训练的真实成本和收益；如果你在做 ML 基础设施，异步流水线和 Delta 压缩是可直接参考的工程方案。结合精讲三看：Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」，而精讲三在问的是「工程师的工作本身会被如何改变」。阅读链接：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 ## 精讲三：2026：软件的末日、工程师的陨落、平庸的消失 2026 年 1 月，美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅：标普北美软件指数下跌 15%。不是因为业绩崩塌，而是因为华尔街意识到一件事——SaaS 的护城河正在被 AI Agent 从根部挖空。华尔街给这场抛售起了个名字：SaaSpocalypse，软件末日。被做空的是哪一层？过去二十年，SaaS 的商业逻辑建立在一个前提上：把企业功能打包成操作界面，按席位收取月费。界面即产品，界面即护城河。员工用久了形成肌肉记忆，替换成本极高，这是 SaaS 估值飞涨的核心驱动力。 AI Agent 打破的，正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子，语气平静、但意味深长：「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360，无需浏览器。」这家靠界面起家的商业帝国，亲手把自己的界面变成了可选项。逻辑链条是这样的：Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层，壁垒被 AI 复制。 📷 但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分：AI 大幅降低了重建一套系统前 80% 的成本，而剩余的 20%——特殊事项、审批流程、合规要求——仍然是「可用原型」与「真正替代品」之间的分水岭。被集中做空的，是价值落在「前 80%」的中间层：以数据分发为核心的 Thomson Reuters（单日暴跌 16%）、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征：壁垒恰好集中在最容易被 AI 复制的区域。而管理财务账目的后台系统、涉及合规审计的数据平台，则属于那难以逾越的「20%」。ERP 的迁移，a16z 把它比作「病人在跑马拉松时做开胸手术」。软件会变少吗？答案是杰文斯悖论直觉上，AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事：蒸汽机效率越高，英国消耗的煤炭反而越多——效率提升让资源变便宜，催生了大批原本不存在的使用场景，导致总消耗净增长。这就是杰文斯悖论。 Token 正走同一条路。GPT-4 问世时，每百万 Token 调用成本 37.5 美元；两年后，GPT-5 High 降至 3.63 美元，性能却突破人类博士水平。成本下降超过 99%，但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单：过去 30 天，个人级别消耗 6030 亿 Token，单月花费超过 130 万美元。每一次 Token 价格的下跌，都不只是让现有软件运行得更便宜，而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用；OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实——这在两年前根本不存在。工程师的角色迁移：从写代码到 Software 3.0 文章的结尾是最值得停下来想一想的部分：工程师的角色正从「写代码」迁移向 Software 3.0——设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作，他说：「我花了五秒钟把所有情绪过了一遍，然后就明白，好吧，我的职业生涯完了。」平庸的产出正在加速消失，但这不意味着工程师集体消失——而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师，将会更稀缺、更有价值。协议层：MCP 正在成为新的 USB 接口文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP（Model Context Protocol）正在成为 Agent 时代的 USB 接口——一次接入，所有支持 MCP 的 AI（Claude、ChatGPT、Cursor、Copilot 等）均可调用。在 MCP 之前，每让 AI 接入一个新工具都要单独写一套适配代码；MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后，必须出现的基础管道。与今日其他内容的关联这篇文章的论述与精讲一、二构成了一个完整的三角：Claude Code（产品侧 AI 原生）+ Composer 2（训练侧 AI 原生）+ SaaSpocalypse（产业侧 AI 冲击）。三篇合在一起，描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起，也都是这场变革在不同应用层面的具体落地——当你把它们放在这篇文章的框架里，会看到一幅更清晰的全景图。阅读建议：如果你是工程师，重点看「工程师角色迁移」和「Software 3.0」部分；如果你在做产品或投资，重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长，但论证密度高，值得完整阅读。阅读链接：2026：软件的末日、工程师的陨落、平庸的消失 ## 速览 ESMFold2：蛋白质领域的「苦涩教训」 BioHub 团队推出开源蛋白质结构预测模型 ESMFold2，在多样化数据上扩展简单的 BERT 类 Transformer，在蛋白质相互作用（尤其是抗体预测）方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻——通用架构加海量数据，再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照：Cursor 走专用模型路线赢，但生物信息领域是通用路线赢，背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索，对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文 Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周 Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台，让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent，无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统：一个元 Agent 作为有状态路由器，用 Command(goto=...) 把请求分发给专用子 Agent，每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周——这和精讲三「软件液化」的论断高度呼应：当非技术人员能直接配置 Agent，软件开发的边界正在重新定义。阅读原文 VibeSec 的清算时刻 Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时，遭遇了两次险情：AI 建议把存储桶设为公开访问（会泄露敏感品牌资产），以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论：Vibe Coding 加速了原型到产品的路径，但 AI 生成的代码需要确定性的护栏，而不仅仅是更好的提示词，才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文 Airtable 如何为 AI 功能构建语义搜索层 Airtable 有一个关键数据观察：任何一周内，75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策——选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快，冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事，而是「一个数据特性如何决定了一整套工程决策链」的案例，对有类似冷热数据分布的团队有直接参考价值。阅读原文万字入门 AI Infra：大模型的数学与优化逻辑从 RMSNorm、Softmax、Causal Mask 到 Sampling，逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断：AI Infra 优化的本质是用数学上的等价变换，或对精度的适度妥协，换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发，解释 FP16 数值上限 65504 为何会成为工程约束，再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字，覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者，也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文别再盯着 AI Agent 干活：构建运行时上下文引擎 Brandon Walsenuk 认为，可靠的自主编码 Agent 需要「运行时上下文引擎」，而不只是更长的提示词或更多工具权限。他指出了三个常见误区：朴素 RAG 因「搜索满足感」效应导致信息遗漏（Agent 找到第一个看似匹配的答案后就停止探索，错过更完整的技术现实）；单纯连接 MCP 管道解决不了组织知识缺失；给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突，这是一个系统设计问题，而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看，两者都在解决同一个问题：如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文 AI 基础设施新晋独角兽：Fireworks、Baseten、OpenRouter Fireworks 和 Baseten 双双跻身独角兽，OpenRouter 宣布 $113M B 轮，过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点：基础设施越高效，消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起，以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是，Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方——同一家公司在一天内以两种身份出现在今天的早报里，这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文 ## 补充阅读 CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段，弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15,000+ 客户的规模背后，是一套「先规划、再生成」的编排逻辑——规划阶段帮助 Agent 在行动之前理解变更的意图和范围，减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补：一个说 Vibe Coding 的安全风险，一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI，把从业者的修正转化为结构化评估目标，让 Agent 自主改进——准确率达 97%，吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环，让改进不再依赖工程师手动推进：从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文使用 LLM 保护源代码安全 Anthropic 六步循环法：威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化，瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日，Anthropic 在开源软件中已披露 1,596 个漏洞，其中仅 97 个完成修补——这个数字本身就是现状的真实写照：AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文 Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品，用 ETCLOVG 七层框架（执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理）系统梳理 Agent Harness 工程，覆盖 170+ 开源项目。核心判断：Agent 在长任务、真工具、真实环境中失败，往往不是模型不够聪明，而是系统没把它管好。只改工程外壳不改模型，有研究在 coding benchmark 上实现了最高 10 倍提升；固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件，在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文淘天集团「数字 SRE」：AI 主导代码质量治理从 AI 辅助开发到 AI 主导开发的四阶段演进，淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题，开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例：AI 负责语法级修复这类有明确规则的 Blocker，人类保留关键审核节点——这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文 DiT 残差流的收敛瓶颈与 DAR 解法南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing（DAR），用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加，实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题：PreNorm dilution（历史累积量越来越大，新层想改变表示须对抗膨胀的主干）、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文 ## 今日阅读路径时间有限，推荐优先读这三篇： 1. 2026：软件的末日、工程师的陨落、平庸的消失（精讲三）——理解当前产业变局的整体框架，SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」，先读这篇，其他内容会更有定位感。 1. Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径（精讲一）——具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用，三个机制对任何在思考 AI 原生组织的人都有直接参考价值。 1. VibeSec 的清算时刻（速览）——Vibe Coding 安全风险的真实案例，15 分钟读完，能帮你在下一个 AI 代码项目里提前避坑。时间充裕的扩展路径： - 精讲二（Composer 2 训练工程）+ 速览「Lyft LangGraph 平台」——从模型训练到 Agent 平台，构建对 AI 基础设施的完整认知。 - 补充阅读「Agent Harness Engineering 综述」——为精讲二和速览「运行时上下文引擎」提供理论框架支撑。

译Claude Code 首年营收 25 亿美元，占据编程工具 51% 市场份额，其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作，基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2，其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时，“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时，传统软件中间层正面临冲击。

ginobefun@hongming731 · 5月28日44

#BestBlogs 早报 2026-05-28 2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步——它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。

译推文指出，2026年1月美国软件股暴跌15%（被称为“SaaSpocalypse”），而同期Claude Code首年营收达$25亿，占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折：Claude Code的产品设计路径、其训练工程（提及Composer 2）、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。