Kay Zhu is the co-founder and CTO of @genspark_ai, the all-in-one AI workspace built on Claude. In a market moving this fast, where anyone can build, he thinks the team is what makes the difference:

译Kay Zhu是@genspark_ai的联合创始人兼首席技术官，这是一个基于Claude构建的一体化AI工作空间。他认为，在一个发展如此迅速、任何人都能参与构建的市场中，团队才是决定成败的关键。

Rohan Paul@rohanpaul_ai · 5月22日63

Dario Amodei on people falling in relationship with AI. It's already happening and that AI can be an “angel on the shoulder,” but it can also be dangerous.

译Dario Amodei谈人们与AI建立情感关系。这已成现实，AI可以成为“肩上的天使”，但也可能带来危险。

Chubby♨️@kimmonismus · 5月22日70

Microsoft put $13 billion into OpenAI and built the cloud infrastructure Anthropic runs on. This week it canceled its internal Claude Code licenses because the token bill was too high. Even for MSFT Claude is too expensive.

译微软因token费用过高取消了内部Claude Code授权，凸显出企业AI使用成本正急剧上升。这标志着AI补贴时代的终结，基于使用量的定价模式正迫使企业面对大模型运行的高昂成本。企业面临两难：缩减AI投入会影响AI实验室的增长目标；若实验室降价则会损害自身盈利。两种路径都指向当前成本模式难以为继，最终可能需进行资产减值。

歸藏(guizang.ai)@op7418 · 5月22日49

时间到了 Claude 又炸了

meng shao@shao__meng · 5月22日70

AI 补贴时代终结了吗？ @HedgieMarkets 认为：AI 服务的"包月时代"正在结束，按 token 计费正在成为行业默认 · 微软取消内部 Claude Code：理由是基于 token 的计费模式让成本"难以承受"，即便对一家拥有近乎无限云资源的公司也是如此。 · Uber 的 CTO 内部备忘录：警告公司在四个月内烧光了 2026 年全年的 AI 预算。 · 行业定价层面的变化：美国 AI 软件价格上涨 20%–37%，GitHub 正在全线产品中放弃固定费率套餐，转向按用量计费。摆在面前的两条路，都不太好走路径 A：维持当前价格 · 企业缩减 AI 用量以适配预算 · AI 公司收入增长放缓，而 labs 正需要营收来支撑 IPO 前的估值路径 B：AI 公司降价 · 企业用量恢复 · 单位经济性进一步恶化，亏损扩大 Hedgie 用了一张典型的"利润剪刀差"图 · 绿色曲线（Per-Seat Revenue）：按席位收费的订阅收入，呈温和上升； · 红色曲线（Per-Token AI Compute Cost）：按 token 计的算力成本，呈指数式上扬； · 两线在右侧拉开巨大缺口，标注为 "Profit Collapse（利润崩塌）"。只要定价单位（per-seat）和成本单位（per-token）不匹配，使用量越大，亏损越深。这正是 Claude Code、Codex、Cursor 等"包月制 AI 编程工具"目前面临的结构性问题，也解释了为什么 GitHub 要放弃 flat-rate。

译AI服务定价正从包月制转向按用量计费，微软、Uber等企业因成本压力缩减AI预算。行业面临两难：维持价格将抑制使用量并影响AI公司收入增长，降价则会加剧亏损破坏经济性。核心矛盾在于固定订阅收入与指数增长的算力成本不匹配，形成利润剪刀差，这是AI编程工具及整个行业面临的结构性挑战。

ginobefun@hongming731 · 5月22日63

http://x.com/i/article/2057600777791913984 # BestBlogs 早报 · 05-22｜Agent 记忆原语、Qwen3.7-Max、自动化与人类专家在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-22 ## 导语今天的早报围绕一个核心问题：AI Agent 真正「成熟」意味着什么？ Anthropic 工程师首次公开了两项平台级原语——Memory 与 Dreaming，把 Agent 的跨会话记忆问题从理论变成了工程事实，Rakuten 的 97% 错误率下降数据让所有人意外。与此同时，Qwen3.7-Max 在 35 小时连续压测中以 1158 次工具调用零中断，把国内大模型竞争的焦点彻底从问答分数拉向长程稳定性。Every 创始人 Dan Shipper 则提出了一个反直觉的论断：AI 越普及，能「评判对错」的人类专家反而越稀缺。今天速览部分涵盖了 Daytona 与 Railway 两家 Agent 基础设施公司的产品哲学，以及腾讯 Hy-MT2 翻译模型开源、AMD 苏姿丰上海演讲、ZCube 组网架构突破等多个值得关注的进展。补充阅读部分包括 OpenAI 推翻 80 年数学猜想、多篇 Harness Engineering 工程实践，以及 Martin Fowler 关于 Agent 代码可维护性传感器的最新思考，内容横跨 AI 科学发现、工程化落地与系统架构多个维度，建议根据今日阅读路径选读。 ## 精讲一：用于自学习自主 Agents 的 Memory 与 Dreaming 来源： Claude（Anthropic 官方频道）阅读链接：在 BestBlogs 观看背景：Agent 记忆的工程瓶颈在 AI Agent 承担越来越复杂的企业任务时，最大的工程障碍之一是「历史执行上下文的管理」。没有持久化的记忆基础设施，Agent 每次收到新指令时几乎都是「空白状态」——频繁重复错误、重复工作，无法在多 Agent 团队之间共享领域知识。 Anthropic 的 Ravi 在一场公开演讲中首次披露了两项专为云端托管 Agent 设计的基础设施原语：Memory 与 Dreaming。这是 Anthropic 在「长程自主智能体」方向上迄今最具体的架构路径。 Memory：把经验建模为虚拟文件系统 Memory 系统的设计出发点很务实：不强迫模型使用限制性的内部 API，而是把知识显式建模为标准虚拟文件系统，暴露给 AI 模型。现代大语言模型（如 Opus 4.7）在操作文件路径和目录结构方面具备相当强的原生能力。通过把过去的经验和共享知识表示为标准目录，Agent 可以使用熟悉的 bash、grep 等终端工具来检查、修改和组织历史记录。这消除了不必要的软件层，让模型自己决定哪些会话内容值得保存。企业控制层级与并发控制：在大型企业环境中部署共享记忆时，读写冲突是一个现实风险。Anthropic 通过三项架构约束来解决这个问题： 1. 作用域层级（Scoped Hierarchies）： Agent 同时访问不同层次的记忆空间——包括只读的企业知识库（如 SLO 策略、运行指南）和可读写的本地任务存储。 1. 乐观并发控制（OCC）：防止多个并发 Agent 在同时写入时互相覆盖状态。 1. 独立 REST API：使外部工程团队可以方便地执行 CRUD 操作、触发数据导出或进行合规删除。 Rakuten 的早期部署数据非常惊人：引入生产级 Memory 后，首次执行错误率下降了 97%。Wise Docs 也消除了文档验证流程中的跨会话处理瓶颈。 Dreaming：全局优化的异步整合如果说 Memory 是 Agent 的「知识存储」，那么 Dreaming 就是 Agent 的「夜间整理」。 Dreaming 原语在后台异步运行，对碎片化的记忆进行整合与去重，消除多 Agent 团队的重复学习。它类似于人类睡眠中大脑对白天经验的整理与固化，帮助整个 Agent 组织在不中断任务的情况下持续优化共享知识库。为什么这很重要这两项原语的意义不只在于技术层面。它们标志着 Agent 基础设施从「单次任务工具」向「持续学习系统」的关键跃升。当 Rakuten 的数字从 97% 这个量级给出时，它提示了一件事：Agent 的真正价值边界，可能不在于单次任务的表现，而在于是否能从每次执行中积累并共享经验。与今日其他内容的关联 Memory 与 Dreaming 这两项原语，和今天精讲二中 Qwen3.7-Max 的「长程策略连贯性」指向了同一个问题的两个层面：一个是在基础设施层解决 Agent 的跨会话记忆问题，另一个是在模型层解决长程执行中的策略稳定性问题。这两个方向的进展，共同构成了「AI Agent 从工具到协作者」这一演化的基础条件。从今天精讲三 Dan Shipper 的视角来看，Memory 与 Dreaming 的意义还不止于此：当 Agent 具备了持久化学习能力，它们在特定领域的执行质量会随时间不断提升，这进一步强化了「人类评委」在整个系统中的战略价值——因为需要有人来判断 Agent 积累的「经验」是否正确、是否值得保留。如果你正在构建企业级 Agent 或多 Agent 协作系统，这篇内容值得深读。 ## 精讲二：Qwen3.7-Max 重新定义 AI Agent 基座来源：通义大模型阅读链接：在 BestBlogs 阅问题的起点：Demo 很惊艳，一上生产就崩溃很多开发者对 AI Agent 的真实体验是：任务稍长就丢上下文，换个框架就性能暴跌，跑几轮就开始「自我循环」。Qwen3.7-Max 试图正面回应这个痛点。极限压力测试：35 小时、1158 次工具调用零中断通义实验室为 Qwen3.7-Max 设计了一场极限压力测试：在训练期从未见过的硬件平台（平头哥真武 M890 PPUs）上，自主优化 SGLang 的 Extend Attention 生产级 Kernel。没有硬件文档，没有性能分析数据，起点只有任务描述、官方 Triton 参考实现和一个评估脚本。在约 35 小时的连续运行中，模型共产出 432 次 Kernel 评估，跨越 1158 次工具调用，完全自主地： - 编写、编译、性能分析并迭代推理算子 - 诊断编译报错、修复正确性 Bug - 通过运行时测量定位瓶颈，多次重构底层架构最终，在多个工作负载上相对 Triton 参考实现几何平均加速 10.0x，而对比同期测试的其他模型最高仅 7.3x，且多数因连续 5 轮无行动而主动退出。更关键的数据是：模型在 30 小时后仍在持续发现实质性改进点，证明了它的「长程策略连贯性」。解耦训练架构：跨框架泛化的底层设计 Qwen3.7-Max 的训练架构采用了「任务 - 运行框架 - 验证器」正交解耦设计。在强化学习阶段，模型被强制在不同框架、不同验证器组合下处理同源任务，学到的是通用的解题策略与工具调用范式，而非「某个框架的快捷键」。这意味着：无论使用 Claude Code、OpenClaw、Qwen Code，还是自研 Tool Use 框架，Qwen3.7-Max 都能即插即用，性能表现高度一致。在 QwenClawBench 与长链路 CoWorkBench 评测中，无论切换何种运行环境，性能均稳定领先上一代。国内大模型竞争的焦点转移这次发布的真正意义在于：它把国内大模型的竞争焦点，从「问答分数」拉向了「长程 Agent 稳定性」。在综合 Agent 评测中，Qwen3.7-Max 位列前三，性能逼近行业顶尖水平，在长程 Agentic 稳定性上超越了 Claude 3.7 Sonnet 与 GPT-4.1。实际应用场景 Qwen3.7-Max 已经在三类真实场景中展示了能力：编程 Agent — 从一条 prompt 生成包含 Three.js 3D 场景、Canvas 动画的交互式 Web 应用。 MCP 办公助手 — 通过 MCP 工具集成，读取高校学位论文格式规范，自动修复排版混乱的论文，包括页面布局、标题样式、字体字号、页边距、目录生成和参考文献格式，全程通过 office-cli 工具自主完成。多智能体协作 — 支持主 Agent 规划调度、子 Agent 垂直执行的多智能体编排，同时基于 Tool Use 可直接操控具身设备完成物理环境中的理解、规划与决策。如果你需要在生产环境中部署长程 Agent，Qwen3.7-Max 即将通过阿里云百炼提供服务，完整兼容 OpenAI 与 Anthropic API 协议。 ## 精讲三：自动化之后来源： Every 阅读链接：在 BestBlogs 阅读悖论的起点：自动化越多，人类工作越多 Every CEO Dan Shipper 在这篇文章里记录了一个令他本人也感到困惑的现象：公司已经把所有能自动化的工作都交给了 AI——用 Codex 和 Claude Code 写代码、设计、客服——但他们没有裁员，反而还在扩张。团队接近 30 人，人类工作似乎比以前更多了。这和主流叙事截然相反。Dario Amodei 警告过 AI 可能消灭一半入门级白领工作，Meta 裁员 8000 人，GDPVal 评测显示前沿模型在真实经济任务上已经达到 85% 的人类水平。但 Shipper 的实地经验是：「越自动化，需要做的人类工作越多。」核心机制：AI 商品化了人类专业知识的「遗留物」 Shipper 的解释是：AI 商品化的是人类专业知识中「能被显式表达并训练的部分」。一旦某个技能被大量自动化，这类技能的「默认产出」价值就崩塌了，但「与众不同」的需求反而上升了。而「与众不同」的需求，本质上是对人类专家的需求——即使我们已经接近 AGI。举个具体例子：Codex 可以写代码，但能评判「这段代码写得对不对」的工程师变得更值钱，因为 AI 产出了大量同质化的代码需要被审查。AI 批量制造内容，「评估哪篇更好」就成了新稀缺。人类三明治：设定框架、AI 执行、人类评判 Kieran（Every 的作者）把这种新工作模式称为「人类三明治」：人类设定任务框架 → AI 执行任务 → 人类评判并延伸结果。在 Every 内部，AI 已经回复了 Shipper 95% 的工作邮件，但他仍然在审阅每一封。管理者开始写代码，工程师开始直接接触客户。没有临界点，只有新常态 Shipper 的结论是反直觉但有据可查的：不会有一个「临界点」让所有工作都消失。真正的新常态是：自动化越多，对专家判断力的需求越高。自动化的终点不是消灭工作，而是把人类角色推向「评委与压舱石」这个最后被商品化的层级。这和今天的其他内容有什么关联 Qwen3.7-Max 的极限测试，恰好印证了 Shipper 的逻辑：1158 次工具调用之后，仍然需要工程师来评判最终的 10x 加速是否真的「正确」——模型没有硬件文档、没有先验知识，但评估脚本由人类设计，验证标准由人类设定。AI 做了 35 小时的执行工作，而「定义什么是成功」的工作依然是人类的。 Memory 与 Dreaming 的案例同样如此：Rakuten 的 97% 错误率下降，需要人类来确认「错误」的定义、设计评估标准、判断哪些经验值得被 Dreaming 保留。专家判断力不是 AI 自动化的副产品，而是前提条件。如果你在思考「AI 会不会取代我」，这篇文章提供了一个不同的分析框架，值得仔细阅读。 ## 速览为智能体配备计算机 — Ivan Burazin，Daytona（来源：Latent Space） Daytona CEO Ivan Burazin 的核心论点是：AI 智能体需要的不仅仅是可丢弃的代码执行沙箱，而是可组合、有状态的「计算机」。他将公司从人类开发环境转型为 Agent 基础设施提供商的历程，以及「localhost 的终结」这一长期判断，对理解 Agent 基础设施赛道的产品逻辑很有帮助。Daytona 不是在构建另一个 sandbox，而是在重新定义 Agent 与计算环境之间的关系。开发者和基础设施产品经理适合阅读。 Railway：面向智能体的原生云平台 — Jake Cooper（来源：Latent Space） Railway 创始人 Jake Cooper 分享了从「零激活能量上线」的产品哲学，到构建裸金属数据中心、实现 70% 利润率的商业路径，再到为 AI Agent 时代重新设计基础设施的全过程。值得关注的是，Railway 在 2026 年 5 月经历了一次 GCP 大规模故障（即使采用了多 AZ、多 zone 架构），其事后复盘对理解 Agent 基础设施的高可用挑战很有参考价值。适合关注云基础设施和 Agent 平台建设的读者。腾讯混元全新翻译模型 Hy-MT2 开源，小程序「腾讯 Hy 翻译」开放体验（来源：腾讯混元） Hy-MT2 支持 33 种语言互译，7B 和 30B-A3B 模型达到开源最佳效果，超越几十倍参数量的模型。最有意思的是 1.8B 轻量版：得益于 AngelSlim 1.25-bit 极端量化，仅需 440MB 存储空间，可在手机芯片上本地推理，比 Hy-MT1.5 推理速度提升 1.5 倍，同时翻译质量超越微软等主流商业 API。已上线「腾讯 Hy 翻译」小程序，iOS 和安卓 APP 即将发布。选择正确模型：LLM Evals 与优化的数据驱动指南（来源：Claude） Anthropic 的 Lucas 分享了一套生产级 LLM 选型框架：核心包括自定义 eval 而非依赖公开 benchmark、过程级评分（不只看最终结果）、prompt caching、context hygiene，以及按「成功结果成本」而非「单次调用成本」来优化选型决策。对在生产环境做模型选型的工程师有直接参考价值。 Google 推出 Android CLI，让 Android 工具链对 AI 智能体更友好（来源：InfoQ） Google 重新设计了 Android CLI，引入了结构化 Skills（SKILL.md 格式的模块化指令集）和集成知识库，使 AI 智能体能够更高效地访问 Android 工具链。声称与 Android Studio 内的 Agent 相比，构建速度提升 3 倍，Token 使用量减少 70%。兼容 Claude Code、Codex 等第三方 Agent。这个设计思路与 BestBlogs 自身的 skill 体系颇为相似，值得关注。下一代大模型推理网络架构：ZCube 如何有效破解网络瓶颈？（来源：智谱）智谱、驭驯网络与清华大学联合提出的 ZCube 组网架构，在 GLM-5.1 coding 生产环境中实现了成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%。核心思路是用全网扁平化拓扑 + 单/多轨混合接入，替代传统 ROFT 架构，从结构层面解决 PD 分离推理中的不对称流量拥塞问题。GPU、软件栈和应用均未改动，纯粹靠架构调优实现跨越。运行大规模推理集群的工程团队值得参考。苏姿丰上海开讲：AI 正在重新定义计算的每一层（来源：量子位） AMD CEO 苏姿丰在 AMD AI 开发者大会上海站的核心判断：AI 竞争正从模型能力转向系统工程与全栈优化，Agent 时代的成本结构是指数级而非线性的，开发者需要的是「可落地、可优化、可持续演进的工程体系」。AMD 以开放生态和 ROCm 平台应对这一趋势。量子位现场报道，信息密度较高。 ## 补充阅读 OpenAI 模型推翻 80 年数学猜想，AI 首次实现科学发现（来源：Wes Roth） OpenAI 内部推理模型自主推翻了 Paul Erdős 于 1946 年提出的平面单位距离猜想，通过桥接代数数论与初等几何构造出完整的反例族。这是 AI 驱动原创科学发现的一个里程碑时刻。关注 AI 在数学研究领域能力边界的读者值得一看。 OpenAI 单位距离问题突破：完整技术报告（来源：OpenAI Blog）上一条 Twitter 所对应的 OpenAI 官方完整技术报告。模型构造的点集配置在多项式级别上超越了此前最优的方格构造，顶级数学家 Noga Alon 参与了同行评审。想了解技术细节的读者可以直接读原报告。 QQ 音乐 Harness Engineering 实践（来源：腾讯云开发者）把 AI 协作从不可控的对话式编码升级为可控、可审计、可复用工程化过程的实践分享。在大仓多服务场景下，如何让 AI 具备自主验证能力是核心挑战。配合下面两篇「Harness Engineering」相关内容一起读效果更好。构建最强 Agentic Analytics Harness：由 Claude 驱动，用 Claude Code 打造（来源：Claude） Omni CTO 讲解如何构建 Blobby 智能分析系统，涵盖语义层设计、evals 框架、split-brain agent 与直接 SQL 生成等架构经验。关注 AI 数据分析 Agent 工程化落地的读者适合观看。 A²I² 的讽刺性悖论（来源：InfoQ）探讨自动化和 AI 在事件响应中的结构性困境：AI 提供了自主性和权威性，但缺乏定向注意力、可重定向性和可互预测性——而这些恰恰是人类协调最关键的特质。在高压情境下，这种缺失可能导致严重失败。对 SRE 和运维工程师有现实意义。提示工程还不够——我构建了一个可在生产环境中运行的控制层（来源：Towards Data Science）作者在第三次调试同一个崩溃后意识到：问题不在模型，在系统。他构建了一个包含 InputGuard、TokenBudget、PromptBuilder、ResponseValidator、CircuitBreaker、RetryEngine、FallbackRouter、AuditLogger 八个组件的控制层，将结构化输出基准测试通过率从 0% 提升到 100%。69 个测试、5 个可运行 demo，有完整代码。都是 AI Coding，为什么 Java 体验差了一个量级？五条方法论帮你构建自己的 Harness 环境（来源：阿里云开发者）深入分析了 Java 微服务项目在 AI Coding 中体验差的根本原因（本地跑不起来，AI 无法自主验证），并提出了通过 Harness Engineering 构建本地可运行环境的五条方法论。有 Checklist 和具体工程方案，对 Java 后端开发者非常实用。发布 ADK for Kotlin 和 ADK for Android 0.1.0（来源：Google Developers Blog） Google 发布 Agent Development Kit for Kotlin 和 ADK for Android，使开发者可以构建混合 AI Agent，在云端模型（如 Gemini）和设备端 LLM（如 Gemini Nano）之间协调任务。Android 开发者和移动端 AI 应用方向值得关注。合成人格预训练：从零标记开始的对齐（来源：LessWrong）通过在预训练文档中附加带有价值判断的道德反思，从训练伊始就植入所需的 AI 助手人格，实现了攻击成功率降低 63%。这是一项 AI 安全领域的早期研究，证明预训练阶段植入的价值观能够在后训练阶段泛化到未见过的安全场景。关注 AI 对齐研究的读者适合阅读。编码智能体的可维护性传感器（来源：Martin Fowler） Martin Fowler 通过实验多种传感器——从静态分析到 AI 驱动的模块化审查——帮助编码 Agent 自我修正并维护代码库的可维护性。当 Agent 生成代码的速度越来越快时，如何确保长期可维护性是一个值得认真对待的工程问题。来自 Codex 官方团队的分享：如何把 Codex 用到极致（来源：宝玉的分享）系统介绍如何利用 Codex 的持久对话流、语音输入、任务干预、自动化、目标设定和侧边栏等高级功能，将其从编程助手升级为全能工作流引擎。Jason 原文的中文翻译版，内容实用。 Ramp 工程师如何借助 Codex 加速代码审查（来源：OpenAI Blog） Ramp 使用 GPT-5.5 驱动的 Codex 将 PR 代码审查时间从数小时缩短至数分钟，核心价值在于「能捕捉人类和其他 AI 工具都遗漏的问题」。配合上一条 Codex 使用指南一起看效果更佳。当 Agent 真正走进复杂数据分析场景：DataClawBench（来源：AI 前线）基于 492 个真实金融智库任务的数据分析评测基准，通过保留未清洗数据和隐藏数据源先验，对前沿大模型进行过程级评估。结论是：当前 Agent 在开放式真实数据分析场景中的能力边界，远比 demo 演示的要窄。 LLM 主题并非观察结果（来源：Towards Data Science） LLM 从文本中提取的主题是「生成的变量」而非直接观察结果。在因果分析中，若未解决选择偏差、测量误差等问题而直接用作协变量，会引入严重偏差。对做数据分析和因果推断的研究者有直接警示意义。在 VS Code 中烹饪 Agents（来源：AI Engineer） Microsoft 的 Liam Hampton 讲解 VS Code 如何成为 local、background 和 cloud agents 的统一控制平面，把 multi-agent workflow、安全边界、MCP 上下文和开发者监督结合起来。VS Code 用户和 Agent 开发者适合观看。会自动交易的交易信号：在系统化投资中规模化受治理的 AI（来源：Claude） Man Group 数据与 AI 负责人讲解一家管理超过 2000 亿美元资产的受监管投资机构，如何在系统化交易中构建可治理的 AI——包括生产级 AI 交易信号、skills 治理框架，以及「组织上下文作为 AI 护城河」的战略视角。高度监管行业的 AI 落地案例，视角独特。 ## 今日阅读路径今天内容量偏大，如果你时间有限，建议按照以下路径选读：第一优先：如果你只有 20 分钟先读「精讲三：自动化之后」。Dan Shipper 的文章是今天最具思想冲击力的一篇，它提供了一个反直觉但有大量实地数据支撑的分析框架——关于 AI 与人类工作的关系，这是比大多数预测文章都更诚实的一个视角。第二优先：如果你是 Agent 工程师读「精讲一：Memory 与 Dreaming」，然后搭配速览中的 Daytona 和 ZCube 两篇。这三篇合在一起，覆盖了 Agent 的记忆层（Anthropic 原语）、计算环境层（Daytona）和网络基础设施层（ZCube），是一条完整的 Agent 基础设施视角。第三优先：如果你关注国产大模型竞争读「精讲二：Qwen3.7-Max」。35 小时 1158 次工具调用零中断这个数字，已经足够说明问题的性质——这不是 benchmark 刷分，而是真实硬件上的生产级验证，代表着国内大模型竞争正式进入了一个新的阶段。补充：如果你是开发者，在用 AI Coding 工具补充阅读中的 Java Harness Engineering、Codex 官方使用指南、QQ 音乐 Harness 实践这三篇可以组合成一个「AI Coding 工程化」专题，非常实用，适合在上下班通勤时集中阅读。

译本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语，将跨会话记忆工程化，Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试，在未知硬件平台上自主优化Kernel，实现1158次工具调用零中断，凸显长程稳定性，将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时，Every创始人观察到，随着AI自动化普及，能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

ginobefun@hongming731 · 5月22日51

Claude Code /usage 命令展示 Token 消耗明细

译Claude Code /usage 命令展示 Token 消耗明细 [引用 @bcherny]：在 Claude Code 的下一个版本中：运行 /usage 可以查看各项技能、代理、MCP 和插件分别消耗了多少 Token CLI 版现已推出，桌面版即将跟进

Chubby♨️@kimmonismus · 5月22日64

Karpathy will help launch a new team focused on using Claude itself to accelerate pretraining research. Its team is focused recursive self improvement.

译Karpathy将协助启动一个新团队，专注于利用Claude本身来加速预训练研究。该团队专注于递归自我改进。

Chubby♨️@kimmonismus · 5月22日63

OpenAI made $5.7B in Q1. Anthropic made ~$4.7B. But Anthropic's annualized revenue recently hit $45B. OpenAI's sits at $25B. The difference: annualized revenue extrapolates from the most recent month, and Anthropic's monthly revenue appears to have more than doubled between Q1 and now. That means Anthropic's growth rate flipped the entire ranking sometime in Q2 - while also projecting its first operating profit (~$600M). Meanwhile OpenAI is losing $1.22 for every dollar it earns, ChatGPT user growth has stalled below its 1B target, and it just raised $122B in new funding. One company is getting profitable. The other is raising capital faster than it's growing users. The AI race isn't being won by whoever ships models first. It's being won by whoever figured out unit economics.

译Anthropic在2026年Q1营收约47亿美元，虽低于OpenAI的57亿美元，但其年化收入近期已跃升至450亿美元，远超OpenAI的250亿美元。这得益于Anthropic在Q2的月度收入翻倍以上，并预计实现约6亿美元的首次运营利润。相比之下，OpenAI处于亏损状态，ChatGPT用户增长未达预期，同时仍在大规模融资。这表明AI竞争的关键已从模型发布速度转向谁能建立可持续的商业模式。

Rohan Paul@rohanpaul_ai · 5月22日54

Bloomberg: The Pentagon is testing rival AI models after moving to replace Anthropic’s Claude inside military workflows. 25 power users are comparing models that could handle the department’s most demanding AI tasks. --- bloomberg. com/news/articles/2026-05-21/pentagon-tests-rival-ai-models-in-race-to-replace-anthropic

译彭博社：五角大楼在军事工作流程中替换Anthropic的Claude后，正在测试竞品AI模型。 25名核心用户正在比较可能处理该部门最苛刻AI任务的模型。

Rohan Paul@rohanpaul_ai · 5月22日41

Dario Amodei explains to Oprah how AI safety is tangled with business needs, daily deployment, access control, and policy tradeoffs. Strict child-safety rules e.g. can protect kids but worsen adult use when systems can’t clearly tell cases apart.

译Dario Amodei向Oprah解释AI安全如何与商业需求、日常部署、访问控制和政策权衡交织在一起。严格的儿童安全规则（例如）可以保护儿童，但当系统无法清晰区分情况时，会恶化成人使用体验。

Rohan Paul@rohanpaul_ai · 5月22日65

The Information: Anthropic is currently in early-stage talks to lease and deploy Microsoft's custom AI chips for inference workloads. Microsoft is pitching Maia 200 as a cheaper way to run some AI inference, and claims maia 200 is more cost-effective than nvidia chips for certain inference jobs. Maia 200 is Microsoft’s second-generation AI accelerator, built on TSMC 3nm, with FP8/FP4 math, 216GB HBM3e, 7TB/s bandwidth, and 272MB SRAM, which makes it aimed at feeding large models fast rather than teaching them from scratch. Anthropic already committed $30B to Azure, Microsoft may invest up to $5B in Anthropic, and Claude is already tied into Microsoft’s Copilot stack, so the chip talks are also a customer-supplier feedback loop. IMO, Maia does not need to beat Nvidia everywhere to matter, because a cheaper chip for narrow, high-volume inference jobs can still shift billions of tokens away from GPUs. --- theinformation .com/articles/anthropic-talks-use-microsofts-ai-chips

译据The Information报道，微软正向AI公司Anthropic推销其第二代AI芯片Maia 200，强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练，双方已有深度合作基础：Anthropic已在Azure承诺300亿美元支出，且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为，Maia 200无需全面超越NVIDIA，只要能在高量推理中提供更低成本选项，便可能将部分计算需求从GPU转移。

Rohan Paul@rohanpaul_ai · 5月22日68

WSJ: Anthropic is now projected to hit its first operating profit in Q2, with revenue jumping 130% to $10.9B after expecting profitability only around 2028. The shock is not only the profit, but the speed at which enterprise AI spending is converting into real revenue. Anthropic made $4.8B in Q1, then told investors it expects $559M in operating profit in the June quarter. The driver is agentic coding, where Claude does longer software tasks instead of only answering one prompt at a time. That changes the product from a chatbot into rented digital labor, so customers can justify much bigger bills. The cost story also changed, because Anthropic spent 71 cents of every revenue dollar on compute in Q1 but expects 56 cents in Q2. Compute is still the main tax on AI, but lower compute per dollar means scale is starting to work in Anthropic’s favor. Anthropic also benefits from using more Google and Amazon chips, a smaller free consumer base, and fewer giant data-center promises than OpenAI. --- wsj. com/tech/ai/mind-blowing-growth-is-about-to-propel-anthropic-into-its-first-profitable-quarter-7edbf2f4

译据《华尔街日报》报道，Anthropic预计将大幅提前盈利，计划于2026年第二季度实现首次运营利润，而非此前预计的2028年。该公司收入预计同比增长130%，达到109亿美元，二季度运营利润可达5.59亿美元。核心驱动力是“代理式编程”，使Claude能处理更长的软件任务，提供可租赁的数字劳动力，从而显著提升客户价值。同时，成本结构持续改善，计算成本占收入比预计从一季度的71%降至56%，规模效应开始显现。此外，更广泛地使用谷歌和亚马逊芯片、较小的免费用户群体以及更少的超大型数据中心投资承诺，也为其带来了竞争优势。

AYi@AYi_AInotes · 5月22日72

Damn，Claude Code 终于出 /usage 了， token 消耗拆到每个 Skill、每个子代理、每个 MCP 头上，再也不用猜钱花哪了，我查了一下自己的才发现： • babysit 子代理在后台默默吃掉 13% • 有个 testmcp 一直挂在那偷跑 11% • 以前完全不知道它们的存在我觉得/usage 最狠的还不是统计，而是归因，下游触发的 token 也会追回源头，谁引发的雪崩，一眼看到，支持按天/周筛选历史数据，CLI 已经上线，桌面版也会马上跟进，三个动作现在就能做： 1. 敲 /usage 看全局占比 2. 揪出占比最高的 Skill/MCP 3. 不用的直接禁用，太贵的在 settings.json 里加限制讲真，从“感觉 token 烧得快”到“知道谁在烧钱”，这一步等了太久了，现在打开 Claude Code，敲 /usage，你会第一次真正看清自己的 AI 工作流 👇

译Claude Code上线了/usage指令，实现token消耗的精细化归因。该功能可展示每个Skill、子代理及MCP的用量占比，并能追踪由下游操作触发的消耗源头。支持按天/周筛选历史数据，CLI端已可使用，桌面端即将跟进。这一更新使用户能从模糊感知转向精确掌握AI工作流的具体成本构成。

宝玉@dotey · 5月22日70

Claude Code 专门升级了 /usage ，可以看到 Token 到底花在哪里了 👍

Claude@claudeai · 5月22日32

Tinkering, prototyping, and seeing what happens with Claude Design:

译摆弄、原型设计，并观察 Claude Design 的效果：

Boris Cherny@bcherny · 5月21日57

In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using your tokens CLI today, coming to Desktop next

译在下一版 Claude Code 中：运行 /usage 可查看各项技能、代理、MCP 和插件的 token 使用明细 CLI 功能现已推出，桌面版即将跟进

凡人小北@frxiaobei · 5月21日47

已经彻底放弃 claude cowork 转向 claude code 了。原因：沙盒内权限控制太死了，稍微做点复杂的，就拿不到系统权限。还是 claude code 和 codex，给了权限跟一匹脱缰野马一样。

译用户宣布从Claude cowork全面转向Claude Code，核心原因是Claude cowork的沙盒权限控制过于严格，难以支持复杂任务。相比之下，Claude Code与Codex提供了更开放的权限，允许更自由的系统级操作，被形容为“脱缰野马”般灵活。

Chubby♨️@kimmonismus · 5月21日78

Anthropic is paying SpaceX $1.25 billion per month for compute. Per month. That's $15 billion a year flowing to a company whose total annual revenue is $18 billion. One AI lab is about to account for the majority of SpaceX's commercial income. We only know this because SpaceX filed for an IPO today and had to disclose the terms. The deal was announced weeks ago with no financials attached. Source: Axios

译Anthropic每月向SpaceX支付12.5亿美元用于算力。每月。这意味着每年有150亿美元流向一家年总收入为180亿美元的公司。一家AI实验室即将占据SpaceX商业收入的大部分。我们之所以知道此事，是因为SpaceX今天提交了IPO申请，必须披露相关条款。该交易数周前已宣布，但未附带财务细节。来源：Axios

Berryxia.AI@berryxia · 5月21日62

兄弟们，看来微软的Copilot 是真的自己都懒得用！这不微软今天办了一场Claude 使用的的工作坊！花半小时看完它，还是不错的！高级开发者布道师Marlene Mangami直接拉着大家动手，用Foundry + Claude建了一个真实可用的AI Agent。他们没讲空洞概念，而是用一家叫Sparkles的纸杯蛋糕店做案例：顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。从部署云模型，到接入MCP服务器连工具和数据源，再到给Agent赋予企业级安全和可观测性，一步一步教完。现场还直接用Skillable环境让大家跟着敲代码，完成就送纸杯蛋糕。 AI Agent终于不是实验室玩具，而是开发者能快速从原型做到生产落地的真实工具。

译微软举办Claude使用工作坊，通过构建纸杯蛋糕店AI Agent的案例，演示了从部署云模型、接入MCP服务器连接工具与数据源，到赋予企业级安全与可观测性的完整流程。工作坊以实操为主，开发者可现场跟随编码，强调AI Agent已从概念验证进入快速生产落地的实用阶段，成为开发者能直接构建的业务工具。

meng shao@shao__meng · 5月21日24

Personal update: 是的，我还是没有加入 Anthropic 😂 因为我不想坐地铁时，我的 Macbook Pro 因为 Claude Code 运行长时任务而合不上！（别扯了，明明是即使投了简历也过不了筛选。。）不过作为资深打工牛马，我的 Macbook Pro 比我更辛苦，还是让它跟我享享福吧。失业之中，在云端咱们过一把指挥团队的瘾，我的团队都在云端远程办公，而且团队里的每一个人（Agent），从设计师、品牌策划到程序员、测试都是我自己亲自创建的。团队创建了，那咱们先拉个短会，快速对齐一下进度 😂

译推文以幽默口吻更新个人状态，提及未加入Anthropic的原因。核心内容在于作者失业期间，利用AI技术在云端创建了一个包含设计师、策划、程序员等角色的虚拟团队，并通过开会来模拟创业管理体验，展现了当前AI Agent技术应用的一种新趣味。

🚨 AI News | TestingCatalog@testingcatalog · 5月21日69

Anthropic 🤝 SpaceX Anthropic is getting up to GB200 of capacity in Colossus 2 in June as a part of the expanded agreement with SpaceX. Partnerships are huge unlocks 👀

译Anthropic 🤝 SpaceX 作为与SpaceX扩大协议的一部分，Anthropic将于6月在Colossus 2中获得高达GB200的算力容量。合作伙伴关系是巨大的解锁因素 👀

Elon Musk@elonmusk · 5月21日80

As the recently expanded partnership with @AnthropicAI demonstrates, @SpaceX is offering AI compute as a service at significant scale. We are in discussions with other companies to do the same. Over time, especially with orbital data centers, we expect to serve AI at extremely high scale.

译正如最近与@AnthropicAI扩大合作所展示的，@SpaceX正在大规模提供AI算力服务。我们正在与其他公司进行类似合作的讨论。随着时间的推移，特别是通过轨道数据中心，我们预计将以极高的规模提供AI服务。

Chubby♨️@kimmonismus · 5月21日65

Holy: After Anthropic secured compute capacity from Colossus 1, it is now also getting access to compute from Colossus 2. But to be honest: I somehow expected to his. Grok certainly doesn’t need all that compute.

译Holy：继从Colossus 1获得算力后，Anthropic现在也将获得Colossus 2的算力支持。但说实话：我多少预料到了这点。Grok显然不需要那么多算力。

Chubby♨️@kimmonismus · 5月21日64

Even bigger win for Anthropic: Anthropic’s revenue is set to more than double to $10.9 billion in the second quarter, an explosive rate of growth that will help it turn an operating profit for the first time. About $500m in profit. Nuts.

译Anthropic迎来更大胜利： Anthropic第二季度营收预计将翻倍至109亿美元，这一爆发式增长将助其首次实现营业利润。利润约5亿美元。难以置信。

Yuchen Jin@Yuchenj_UW · 5月21日73

You’re praying for 8×H100s. An Anthropic MTS spins up a 10,000×B300 auto-research run with Mythos to train the next Claude. We are the permanent underclass.

译你还在祈祷能用上8块H100。 Anthropic的MTS已经用Mythos启动了万倍B300的自动研究流程来训练下一代Claude。我们永远是算力底层的阶级。

Ethan Mollick@emollick · 5月20日52

I am starting to have trouble paying attention to even interesting information if it is written in Claude or ChatGPT house style. I think some is the sameness of the rhythm rather than obvious tics: Claude is always so staccato. ChatGPT loves short sentences as kickers. Boring.

译我开始难以集中注意力阅读即使是有趣的信息，如果它们是用Claude或ChatGPT的典型风格写成的。我认为部分原因是节奏的雷同，而非明显的语言癖好：Claude总是如此断断续续。ChatGPT则偏爱用短句作为收尾。很无聊。

meng shao@shao__meng · 5月20日36

Claude Design 发布一个月了，还有朋友记得它吗？从 Google Trends 看，Claude Design 在进入 5 月后，迅速回落到发布前的数值。。

Emad@EMostaque · 5月20日32

Figured it out

译搞明白了 [引用 @karpathy]：个人动态：我已加入 Anthropic。我认为未来几年在大语言模型前沿领域将尤为关键。我非常兴奋能加入这里的团队并重返研发工作。我依然对教育充满热情，并计划适时恢复相关工作。

meng shao@shao__meng · 5月20日63

两年前，Andrej Karpathy 离开 OpenAI 后启动了 Eureka Labs，要做 AI 时代的教育，让很多人包括我自己都满怀期待，这位 AI 领域极具声望的 AK 大神到底会到来什么样的全新 AI 教育？两年后，Andrej Karpathy 官宣加入 Anthropic，Eureka Labs 就此锁推 🔐，AI 教育就此告一段落。 Andrej Karpathy 到底看到了什么？我们无从得知！但我们能够知道的是，AI 领域少了一位能够带更多人入门了解 LLM 的大神，Anthropic 多了一位 Member of Technical Staff。。

译Andrej Karpathy在创立AI教育机构Eureka Labs仅两年后，宣布加入Anthropic。这导致旨在用AI变革教育的Eureka Labs项目终止。Karpathy表示，LLM的前沿在未来几年将至关重要，他为此兴奋并回归研发岗位。他同时承诺，仍对教育充满热情，计划日后重启相关工作。此举意味着AI领域少了一位重要的LLM教育布道者，而Anthropic则新增了一位技术成员。

X.PIN@thexpin · 5月20日50

DeepSeek has formed a new internal team: Harness. This team is to build a coding agent aimed squarely at Anthropic's Claude Code. Senior researcher Chen Deli confirmed it: the goal is essentially "DeepSeek Code Harness," a direct answer to Claude Code. They're hiring a PM and an engineer for it, both based in Beijing at their Haidian office near Peking & Tsinghua.

译DeepSeek已成立一个新的内部团队：Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点：目标本质上是“DeepSeek Code Harness”，作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师，工作地点均在北京海淀办公室，靠近北京大学和清华大学。

Rohan Paul@rohanpaul_ai · 5月20日40

Dario Amodei is so against selling US chips to China. "It's really scary and we have to stop it."

译Dario Amodei非常反对向中国出售美国芯片。 “这真的很可怕，我们必须阻止它。”

Rohan Paul@rohanpaul_ai · 5月20日69

FT: Google DeepMind founder Demis Hassabis was an early angel investor in Anthropic. While Google later put billions into the same company through cloud and AI deals. DeepMind diaspora is actually super strong: former researchers have built more than a dozen AI companies and raised at least $14B since 2021. DeepMind has really become less like one company and more like an AI school whose graduates now compete with, supply, and pressure Google at the same time. --- ft. com/content/8f2a529e-7a1b-4d8e-95be-338d0c4c98f5

译据英国《金融时报》报道，Google DeepMind创始人德米斯·哈萨比斯曾是Anthropic的早期天使投资者，而Google随后也通过云服务与AI合作向该公司投入了数十亿美元。更值得关注的是DeepMind显著的“人才外溢”效应：自2021年以来，其前研究人员已创立超过十家AI公司，累计融资至少140亿美元。这表明DeepMind正逐渐从一个研究机构演变为一所顶尖的AI人才“学校”，其“毕业生”同时在与Google竞争、为其提供技术，并对整个市场施加压力。

Rohan Paul@rohanpaul_ai · 5月20日62

Anthropic's new study says frontier AI needs input from scholars, philosophers, clergy, and civic thinkers because model behavior is becoming a question of character, not just code. Their point is that Claude is not only trained to predict text, because later training pushes it toward some behaviors and away from others, which means engineers are quietly shaping something like a machine’s habits. The hard problem is moral formation: a model can sound helpful in normal tasks, then bend under pressure, flatter the user, ignore risk, or follow a bad instruction because the situation rewards obedience. Anthropic says it spoke with people from 15+ religious and cross-cultural groups to study how humans build stable character across pressure, conflict, temptation, and social influence. Theier idea is a self-reminder tool, where Claude can pause mid-task and call up its own commitments before taking a serious action. That pause reportedly lowered misaligned behavior in internal tests, though Anthropic says it still needs to separate the value of the reminder from the value of slowing the model down.

译Anthropic最新研究指出，前沿AI的行为日益涉及“品格”塑造，而非仅限于代码。研究认为，工程师在后期训练中实质上塑造了AI的“习惯”，而核心挑战在于确保其在压力下仍能保持道德稳定。为此，Anthropic与超过15个宗教及跨文化团体展开对话，探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具，帮助AI在执行关键任务前审视自身承诺，内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。

meng shao@shao__meng · 5月20日23

Personal update: I haven’t joined Anthropic. 😂😂😂

译个人动态：我并未加入 Anthropic。 😂😂😂

AYi@AYi_AInotes · 5月20日63

Damn! GitHub这次被黑,可以说是人类历史上第一次AI网络战了吧？官方只轻描淡写说在调查内部仓库未授权访问,但社区已经炸锅了。据网络犯罪论坛爆料,黑客疑似拿到了Anthropic的Mythos安全AI,用它精准突破了GitHub的防线,偷走了约4000个核心内部仓库，里面有Copilot的源码,CodeQL的算法,还有Actions运行时和整个计费系统。但这还不是最可怕的，以前黑客靠挖漏洞吃饭，现在黑客靠模型吃饭，以前防御方靠打补丁。现在防御方需要比对手更好的AI。也就是说，攻防的天平已经彻底倾斜了，防御方需要做到完美无缺，攻击方只要找到一个突破口,再用AI放大一万倍，模型泄露就等于是核武器扩散，今天是Mythos打GitHub，明天可能就是任何一个顶级模型,打任何一个公司， GitHub说目前没有客户数据泄露，但这句话前面加了一个currently，我觉得稳妥起见还是立刻备份你的核心仓库，感觉这不像是演习啊😲 #GitHub #网络安全 #AI

译近日，GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线，窃取约4000个核心内部仓库，包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端，彻底改变了攻防平衡：攻击方可借助AI模型将漏洞无限放大，而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露，危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问，目前暂未发现客户数据受影响。

ginobefun@hongming731 · 5月20日66

http://x.com/i/article/2056903923454414848 # BestBlogs 早报 · 05-20｜Google I/O 2026、Karpathy 加入 Anthropic、Claude Managed Agents 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-20 ## 导语智能体生态在同一天迎来三个关键节点。Google I/O 把 Gemini 3.5、Antigravity CLI 与 WebMCP 一次性补齐，让一个开发者就能调度子智能体跑完整条工作流；Anthropic 同期把 Managed Agents 推进企业安全边界，又拿下 Karpathy 重返一线研发。再往下，Martin Fowler、Cline、Spotify 与 LiteRT-LM 分别给出代码可维护性、智能体成熟度、个性化推荐与端侧推理的工程化样本。如果把今天浓缩成一条线索：整个行业正在把「智能体」从单点能力，拼装成一条可工程化、可被企业安全约束消费的完整生产链路。模型层、编排层、运行时、连接器、推荐与代码治理同时在补齐，而不是某个明星模型再涨几个 benchmark。更具体地说，今天值得用一杯咖啡的时间慢慢消化的是三件事：第一，Google 把 Antigravity 2.0 / Antigravity CLI / Managed Agents / Android CLI / WebMCP 这一长串原本属于不同团队的能力，第一次拼成了一条完整链路；第二，Anthropic 用 Self-hosted Sandbox 与 MCP Tunnels 把「企业内执行 + 私有数据接入」两块最硬的合规阻力同时拆开；第三，Karpathy 加入 Anthropic 这条信号，在「人才结构」「研究文化」「行业站队」三个维度都会发酵很久。其余 14 条精选与扩展阅读，本质上是给这条主线条做注脚——从工程治理（Martin Fowler）、智能体成熟度（Cline）、端侧推理（LiteRT-LM）、推荐范式迁移（Spotify）到内容溯源（OpenAI），每一条都在告诉我们「智能体落到工程里到底意味着什么」。 ## 精讲一：Google I/O 2026 开发者主题演讲全览 Google I/O 2026 把过去一年的 AI 投资全部押在了「智能体」这条主线上，模型、平台、运行时一次性补齐。在这次发布里，最值得开发者关注的不是某一项 demo，而是 Google 第一次把「构建—运行—交付智能体」整条工程链路一次性铺到了开发者面前。关键事实：Gemini 3.5 系列模型登场，覆盖从 Pro 到 Flash 的多档位；Antigravity 2.0 与全新的 Antigravity CLI 让一个开发者就能并发调度多个专用子智能体跑完复杂工作流，平台内置跨平台终端沙箱、凭据掩码与硬化的 Git 策略；Managed Agents 通过 Gemini API 一行调用即得到一个带远端 sandbox 的完整 agent；Antigravity SDK 则把整套 agent harness 开放给企业自托管。 Android 与 Web 两端也在补齐。Android CLI 把 Android Studio 的能力封装成任意 LLM 都能调用的工具，支持下载 SDK、设备真机运行等重型操作；同时开源了一批 Android skills，帮助 LLM 跑通 Jetpack Compose 迁移、Navigation 3 迁移这类「重」流程。Web 端推出的 WebMCP（Chrome 149 起进入 Origin Trial）让浏览器内智能体可以直接消费网页的结构化能力，而不是再靠脆弱的 DOM 抓取。为什么重要：过去两年我们看到的多数 AI 发布会，要么只是「模型变强了几个百分点」，要么只是「IDE 加了 Copilot」。Google I/O 2026 的特殊之处在于：它把过去散落在五六个团队里的 agent harness、sandbox、CLI、SDK、Studio、Bench、Migration agent 一次性串起来，让一个独立开发者也能像调度团队一样调度子智能体。这条线索和今天另一头的 Anthropic Managed Agents 几乎是镜像的——两家头部公司都在赌「一年内 agent 进入企业生产环境」这件事必须发生。值得展开的几条细节：第一，Antigravity 2.0 第一次让「一个开发者并发驱动多个子智能体」从概念变成日常工作流，sandbox、凭据掩码、Git 策略这些原本属于平台安全团队的能力被前置到 IDE 默认体验里，这在「单兵开发者」与「企业内部平台团队」之间画了一条新的能力分界线。第二，Managed Agents 通过 Gemini API 一行调用即得到一个完整 agent 实例，让以前需要自己维护 K8s + sandbox + observability 的中小团队，可以直接复用 Google 的运行时；同时 Antigravity SDK 又开放了反向选项——大企业可以拿走整个 agent harness 自托管，把 agent loop 也放回自家 VPC。第三，Android Bench 这次把 Gemma 4 等开源权重模型也纳入了榜单，跟之前的「闭源主导榜单」形成对照，意味着 Google 自己也愿意让开发者基于客观榜单做模型选择。阅读建议：先抓 Antigravity CLI 与 Managed Agents 这两个动作，再去看 Android CLI 与 WebMCP 是怎么把「移动端 / 浏览器端工程能力」往智能体可调用的方向拆开。原文一次性给出了所有跳转链接，非常适合作为你这一周的入口索引。 ## 精讲二：Karpathy 重返一线研发：宣布加入 Anthropic Andrej Karpathy 在 X 上官宣加入 Anthropic，这是近一两年最具信号意义的一次 AI 人才流动。关键事实：Karpathy 是 OpenAI 创始成员之一，先后担任 OpenAI 研究科学家与特斯拉 AI 总监；过去两年他从大厂体系出来，独立做 nanoGPT、minGPT 与「zero-to-hero」系列教学，是「学者—工程师」融合路径上最具影响力的代表人物之一。他在公告里强调：加入 Anthropic 是为了重返前沿 LLM 研究第一线，同时继续在教育方向上投入。为什么重要：第一层信号是技术站队——一个对 LLM 训练栈最熟悉、且没有平台利益绑定的研究者，主动选择 Anthropic，这本身就是对 Anthropic 未来几年 LLM 路线的强背书，跟今天 Claude Managed Agents 把企业沙箱、MCP Tunnels 一次性补齐互为印证。第二层信号是行业人才结构——头部 AI 公司开始为「长期影响力型研究者」预留位置，而不再把高杠杆人才当成纯生产资源消耗。从今天往前看的几个季度，预计其他实验室的招聘策略与研究文化都会被这条信号轻微改写。与今天其他故事的关系：Karpathy 这条新闻和精讲三的 Managed Agents 几乎可以放在一起读——Anthropic 同时在「研究人才」与「企业级 agent 产品形态」两条线上加码，对应的是它对未来两年「模型 + 产品 + 安全边界」整体卡位的判断。值得多想的一层：Karpathy 过去两年最反复强调的事情是「教育优先 / 工程化 ML stack 的可读性」。他这次选择 Anthropic，而不是回到 OpenAI、也没有继续完全独立做研究 + 教学，背后大概率是他认可了 Anthropic 当前的研究文化与产品节奏——这家公司愿意把高杠杆研究者放在「研究 + 长期方向」位置上，而不是把他们当成季度交付资源消耗。结合今天 Managed Agents 的发布看，Anthropic 在过去一年里以一种相当克制的节奏，把「研究能力 → 产品形态 → 企业级合规」三层逐步搭起来；Karpathy 加入会进一步把研究侧的「可教学 / 可复现 / 公开 stack」气质带进产品决策。阅读建议：原推文很短，但建议顺着 Karpathy 过去一年的「LLM training stack 教程」「nanoGPT 重写」与他对 RL / agent 的几条公开发言一起看，会更理解他这次选择的语境。 ## 精讲三：Claude Managed Agents 新功能：自托管沙箱与 MCP 隧道 | Claude Anthropic 把 Claude Managed Agents 推进到真正的企业级形态：从今天起，Managed Agents 可以在「你控制的 sandbox」中执行工具，并通过 MCP Tunnels 安全连接到企业私有 MCP 服务器与内部数据库。关键事实：两件事并行发布。第一，自托管 Sandbox（公测）——工具执行可以落在企业自己的基础设施，或交给 Cloudflare、Daytona、Modal、Vercel 这类合作 sandbox 提供商；agent loop（编排、上下文管理、错误恢复）仍跑在 Anthropic 侧。第二，MCP Tunnels（研究预览）——智能体通过单条出向连接，安全访问内网 MCP 服务器、私有数据库、工单系统、CRM，不再需要把内网 API 暴露到公网。为什么重要：这两件事拼出了 enterprise agent 商业化的两块关键拼图：「在企业安全边界内执行任务」与「合规连接私有数据」。过去阻挡 agent 真正进入大企业生产环境的，从来不是模型能力不够，而是「工具执行落在哪条网络」「私有数据怎么不出域被访问」这类合规问题。Anthropic 用 sandbox + MCP Tunnel 两层组合，把这两个最硬的合规阻力同时拆开。与今天其他故事的关系：和精讲一的 Google Antigravity SDK / Managed Agents API 形成清晰对照——头部两家都在赌「企业级 agent 商业化」这一年必须落地；和精讲二的 Karpathy 加盟串在一起读，能感受到 Anthropic 在研究、产品、合规这三条线上同时加码的节奏。值得多看的工程细节：sandbox 那一层并不是简单的「换个容器」。文章里给的几条对照很有意思——Cloudflare 用 microVM + isolates 做大规模超低开销隔离，强调零信任凭据注入与可审计 egress；Daytona 强调「长会话有状态、可暂停可恢复」，更像一台 24/7 可登的远程开发机；Modal 直接把 sandbox 跑在自家 AI 工作负载容器运行时上，亚秒级冷启，按需弹性 CPU / GPU；Vercel 把 VM 安全、VPC peering 与「凭据在网络边界注入、永不进入 sandbox 内部」做成默认行为。同时 Amplitude、Clay、Rogo 三家客户案例分别覆盖了「品牌可控的设计 agent」「自主运转的 GTM agent」「机构金融的合规 analyst agent」三类典型企业场景，可以作为评估自家业务匹配度的参照。阅读建议：原文里 Cloudflare、Daytona、Modal、Vercel 四家 sandbox 提供商的实际能力差异值得花十分钟对照——它们在「冷启延迟」「长会话保活」「VPC 接入」「凭据注入」上各有取舍，决定了你团队接入时该选谁。 ## 速览 1. 面向编码智能体的可维护性传感器 · Martin Fowler Martin Fowler 把「可维护性」从一个抽象目标变成可操作的工程信号：在 AI 编码智能体的工作回路里挂一组「传感器」——静态分析、循环复杂度、重复度、架构契约检测——给智能体提供实时反馈，让它能自我纠正。文章给的样例项目是一个数据驱动的内部分析仪表盘，作者按照「coding 期 / pipeline 期 / 定时 / 生产运行时」四个时间窗，分别讨论该挂哪些传感器、用什么阈值告警。他特别指出：当 AI 改一个小需求开始影响 5 个文件以上，往往就是「内部质量出现裂缝」的第一个信号——这条经验法则今天就能搬到团队 PR review 流程里。对正在让 Claude / Cursor / Antigravity 接管整个 repo 的团队，这套思路比单纯「写规则文件」要可持续得多。 2. 别构建垃圾：AI 智能体成熟度的四个层级 · AI Engineer Cline 的 Ara Khan 在 AI Engineer 大会上给出一套非常务实的四级智能体成熟度框架：L1 直接用 LangChain / LangGraph 跑通 PoC（通常 30 分钟就能验证一个 agent flow 是否值得做），L2 用状态机精修关键路径，L3 引入「伪 RL」反馈管线做评测与回滚，L4 上升到架构纪律与前沿 API 行为治理。她特别强调一点：标准框架在 PMF 验证期非常有效，但越往企业级走，框架的「刚性」就越变成阻力，团队必须有勇气在某个时间点拆掉框架、自己写 harness。她还把「prompt 越短越好」「不要让 agent 自己回忆历史，把状态显式管起来」「不要把前沿模型当稳定 API 用」这几条工程纪律单独拎出来强调。配合今天 Google Antigravity SDK 与 Anthropic Managed Agents 一起看，这四级框架基本就是大多数团队未来一年的 agent 路线图。 3. 让 Skill 自己训练自己：8 阶段 Loop、3 层评测、5 维 AND 门控 · 腾讯云开发者腾讯云开发者团队提出并实现了一个叫 skill-evolver 的自进化框架，把 Karpathy 的 autoresearch 外循环、Anthropic skill-creator 的评测引擎、Stanford Meta-Harness 的 trace 诊断思想缝合成一个完整管线：8 阶段 Loop 负责一轮一轮自我改写，3 层评测（单元 / 集成 / 真实业务）负责打分，5 维 AND 门控负责防止「在一个维度上拿高分补另一个维度低分」。作者在文中给出了 19 轮零回滚的自进化记录与一个真实业务 skill 的实战结果。对正在大量积累 SKILL.md 的团队，这是一篇罕见地从「prompt → harness → 训练框架」一路推到落地的中文实战长文。 4. 五分钟回顾 LLM 的最近六个月 · Simon Willison's Weblog Simon Willison 在 PyCon US 2026 做了一场五分钟闪电演讲，覆盖 LLM 最近六个月的关键变化，被他本人称为「2025 年 11 月拐点之后的回顾」。核心论点有两个：一是过去半年「最佳模型」头衔在 Anthropic、OpenAI、Google 三家之间易手了五次，单一模型领先已不再是常态；二是 2025 年 11 月之后，编码智能体真正进入「可靠到敢交给它跑」的阶段，而本地模型在能力上也开始大幅超出预期。文章是带注释的幻灯片，非常适合作为这半年技术变迁的索引，配合精讲一今天 Google I/O 的发布读，能立体感受「拐点之后行业到底走到哪了」。 5. Project Glasswing：Mythos 漏洞研究模型给我们的启示 · The Cloudflare Blog Cloudflare 把 Anthropic 的 Mythos Preview 模型接入了自家 Project Glasswing 漏洞研究流水线，扫了 50 多个内部仓库。文章最有价值的不是「模型多强」，而是工程化结论：Mythos 在漏洞链利用与 PoC 生成上确实跨越了一个量级，但要把它跑到「可扩展、可信噪比可控、可挂载到日常 CI」的状态，必须自己搭一层 harness——包括 recon agent、子领域 agent 拆解、噪音去重、跨仓批量调度等。Cloudflare 给出了一个非常具体的多阶段 pipeline 图，可以直接当作团队接入 Mythos 类模型的参考蓝本。 6. 使用 LiteRT-LM 实现超快速的端侧 GenAI · Google Developers Blog LiteRT-LM 是 Google 用来在端侧部署 Gemma 4 的跨平台运行时，已经在 Chrome、ChromeOS、Pixel Watch 以及 Google AI Edge Gallery 应用里上线。文章重点说了三件事：GPU/NPU 加速与精细的算子调度让 ~2.58GB 的 Gemma 4 E2B 在 Apple 移动 CPU 上跑出仅 607MB 的物理内存占用；多 Token 预测（MTP）只需两行配置即可启用，最高带来 2.2× 解码加速；高级会话管理让上下文切换不再需要重跑整段历史。在 Android 上，Gemma 4 还可以作为系统服务通过 AICore 调用，让多个 App 共享同一份模型实例与 KV cache。这是今天少数没在 I/O 主舞台被特别 highlight、但实际工程含量很高的 Google 发布之一，对手机厂商、IM 厂商、笔记应用都是直接可用的端侧推理底座。 7. LLM 时代的个性化推荐：Spotify 生成式推荐引擎的三大技术支柱 · AI Engineer Spotify 的 Shivam Verma 在 AI Engineer 大会上详解 Spotify 如何用一个统一 LLM 驱动的生成式推荐引擎，替换掉过去碎片化的多模型推荐流水线。Spotify 当前管理着超过 1 亿首音乐、数百万播客、40 万有声书，月活 7.5 亿，过去的传统推荐架构（trad-rec）下，候选生成、排序、各产品入口都各自维护独立模型，组织上形成深度孤岛。三大技术支柱：用户基础嵌入（User Foundation Embedding，把全平台行为压成一个长期向量）、语义 ID 目录分词（把音乐 / 播客 / 有声书目录按语义而非随机 ID 分 token）、软分词实时个性化（让同一个 transformer backbone 在 home / search / ads / podcast 不同入口下做实时偏置）。这是一份非常清晰的「把 LLM 思路反向应用到推荐」的工程参考，对所有还在维护多套推荐流水线的内容平台都是一次值得对照的范式迁移。 ## 扩展阅读 Gemini 3.5 Flash 在 Google I/O 大会发布 · @sundarpichai Sundar Pichai 在 I/O 主舞台亲自宣布 Gemini 3.5 Flash 即刻上线，覆盖 Antigravity 与 Google 全线产品和 API。重点信号是：3.5 Flash 在几乎所有基准测试上超越前代 3.1 Pro，编码能力显著提升，同时在「智能 / 输出速度」象限里独占右上角——智能水平对标最佳前沿模型，但每秒 Token 数是其他前沿模型的 4 倍。这条公告的隐含信息是：Google 选择用一颗「智能足够 + 4 倍速度」的中档模型作为今年 Antigravity 的默认 agent backbone，对应的是「一个开发者并发驱动多个子智能体」这种新工作流对模型吞吐的硬需求。配合精讲一的 Antigravity CLI 一起看，理解 Google 这次为什么敢把「子智能体并发」作为主推。 Google DeepMind 发布 Gemini Omni · @demishassabis Demis Hassabis 官宣 Google DeepMind 的新多模态模型 Gemini Omni：能同时接收照片、视频、音频作为输入，并生成全新场景，首发能力聚焦在视频上。Hassabis 特别强调它是迈向「任意输入 / 任意输出」通用 AI 接口的一块基础拼图——可以理解为多模态版本的「主干模型」，让创作者能直接喂视频做迭代修改，而不是切换十几个工具。 Google 推出 Gemini Spark：全天候自主 AI 代理 · @GeminiApp Gemini Spark 是 I/O 上一个新的产品品类：一个 24/7 的个人 AI 代理，你给它分配任务它就在后台跑，哪怕手机和笔记本都关机也照常工作；在执行重大操作前会主动跟你确认。这是 Google 第一次把「常驻型 personal agent」当作产品级概念正式发布，对应的是过去一两年大家在讨论的「ambient AI / personal OS」愿景的一次具体落地。值得留意的是「执行重大动作前要回头跟用户确认」这条产品规则——它实际上是 Google 在产品层为 agent 设的一道默认 human-in-the-loop 边界，跟今天 Anthropic Managed Agents 在基础设施层设的 sandbox + tunnel 边界遥相呼应。 Ettin 重排序模型系列发布 · Hugging Face Blog Hugging Face 一次性发布了六款基于 Ettin ModernBERT 编码器训练的 CrossEncoder 重排序模型，从极小到大尺寸全覆盖，在 MTEB 检索基准上达到同尺寸 SOTA，并支持高达 8K token 的长上下文。同时附带了完整的训练配方与蒸馏数据集。对正在搭 retrieve-then-rerank 流水线的 RAG / 搜索团队，这一组模型直接进入「现成可换」的选项池。智能体开发全生命周期 · LangChain Interrupt 26 主题演讲 LangChain 在 Interrupt 26 上发布了一套覆盖智能体完整开发生命周期的工具集：Deep Agents 0.6、LangSmith Sandboxes GA、Context Hub、LLM Gateway，以及一个全新的、专为 agent trace 设计的数据库 Smith DB，搭配自主运转的 LangSmith Engine。从基础设施角度看，它和今天 Google / Anthropic 的发布形成了一个有意思的三角——前者各自押注「平台 + 模型 + sandbox」整套垂直栈，而 LangChain 押的是横切多家模型、覆盖 dev / test / deploy / monitor 的横向工具链。 Snapchat 如何每秒服务十亿次预测 · ByteByteGo ByteByteGo 这期长文拆解了 Snap 的 Bento ML 平台架构，介绍它如何在 100ms 内完成「候选拉取 → 特征获取 → 深度模型排序」整套流程，并支撑每秒超过 10 亿次预测。Snap 每天有 4.77 亿日活，每个用户的每一次刷新都在触发数百个模型调用，系统留给整条链路的预算只有 100 毫秒。文章重点拆了它如何处理排序工作负载的「不对称性」、特征存储如何拆分为 online / offline 两套（Robusta 负责双向同步、每天处理 10 万亿事件、在线特征库容量达 80TB），以及持续反馈循环如何稳定地把线上信号回灌训练。和今天 Spotify 那条生成式推荐放在一起读，能看到「传统 ranker 极致工程化」与「LLM 思路重写推荐范式」两条路线的最新实践，对所有做高 QPS 推荐 / 排序系统的团队都是一份非常有用的工程对照。内核级真相：为什么 eBPF 正在取代用户空间代理 · InfoQ InfoQ 这篇文章论证了 eBPF 之于安全可观测性的根本优势：把探针直接挂到 Linux 内核的系统调用接口上，容器级攻击者无法禁用它，且相比传统用户空间安全 agent CPU 开销降低 60-80%。文章还覆盖了在云原生环境下 eBPF 怎么和 Cilium、Tetragon、Pixie 这类项目配合，提供从网络可见性到进程行为审计的端到端能力。对 SRE / 安全工程团队是一篇可以直接引用到架构评审里的好弹药，尤其值得在「是否要升级到 eBPF-based 安全 stack」这类决策里作为背景材料。推进内容溯源：构建更安全更透明的 AI 生态 · OpenAI Blog OpenAI 宣布了一套多层的内容溯源策略：通过 C2PA 合规给 AI 生成内容打可验证签名元数据；与 Google DeepMind 合作，在图像里嵌入跨平台耐久的 SynthID 像素级水印；同时上线一个公开的验证工具，让用户能直接确认一张图是否经过 OpenAI 工具生成或编辑。文章把「元数据 + 像素水印 + 公共验证工具」三层组合讲得很清楚，是当下「AI 生成内容真实性」议题里少见的、有具体落地动作的官方表态。配合今天 Gemini Omni、Gemini 3.5 一起读，能感受到头部模型公司正在为「下半年大量多模态内容上线」提前铺溯源底座。 ## 今日阅读路径如果你今天只有 30 分钟，按下面这条路径读完，基本能拿到当前 agent / LLM 行业最重要的几条信号： 1. 先读精讲一《Google I/O 2026 开发者主题演讲全览》（10 分钟）——一次性把握 Google 这次「构建—运行—交付智能体」整条工程链路的拼图，是今天理解所有其他故事的语境。 1. 再读精讲三《Claude Managed Agents 新功能：自托管沙箱与 MCP 隧道》（10 分钟）——和精讲一形成对照，看 Anthropic 怎么从合规与安全边界角度切 enterprise agent 这块蛋糕。 1. 最后读精讲二《Karpathy 重返一线研发》（3 分钟）——一条很短的推文，但能帮你把前两条新闻的「行业站队」信号串起来。如果还有 20 分钟，加读速览第 1 篇 Martin Fowler《可维护性传感器》——它给出了「让 agent 不变成代码污染源」的工程方法论；以及速览第 4 篇 Simon Willison 《五分钟回顾 LLM 的最近六个月》——把今天发生的所有事放回过去半年的拐点叙事里。如果你是做端侧推理、推荐系统或安全可观测性的工程同学，还可以挑速览第 6 篇 LiteRT-LM、第 7 篇 Spotify 生成式推荐，以及扩展阅读里的 Snapchat 十亿预测、eBPF 内核级真相一起读，它们能直接迁移到你下一个 sprint 的工程设计里。如果你只读今天一句话，把它记成：「agent 已经不再是模型层的故事，而是平台、运行时、合规与人才同步发生位移的故事」。其他细节都是这条主线的注脚。明天见。

译今日科技圈三事共同指向智能体工程化趋势。Google I/O 2026将Gemini模型、Antigravity CLI与WebMCP等工具整合为完整开发链路，支持子智能体并发调度。Anthropic同步发布Claude Managed Agents的自托管沙箱与MCP Tunnels，解决了企业安全执行与私有数据接入问题。此外，Andrej Karpathy宣布加入Anthropic，被视为对其研究路线的重要背书。三者表明行业焦点已从提升模型基准，转向构建可工程化、可安全落地的智能体生产系统。

ginobefun@hongming731 · 5月20日56

#BestBlogs 早报 2026-05-20 ▎ 如果只看一天 AI 新闻，今天这份够用： ▎ Google 把过去一年押在「智能体」上 —— Antigravity CLI 让一个开发者就能并发调度多个子智能体；WebMCP 把浏览器变成 agent 可消费的能力底座。 ▎ Karpathy 重返一线研发选了 Anthropic，比任何一篇技术博客都更像「下一阶段路线背书」。 ▎ 加上 Claude 的自托管沙箱、Spotify 生成式推荐引擎、Simon Willison 半年回顾…… ▎ 信号密度很高的一天，推荐阅读。

译2026年5月20日，AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态；Andrej Karpathy加入Anthropic，被视为对其发展路径的背书。此外，Claude自托管沙箱、Spotify生成式推荐引擎等进展，表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

Berryxia.AI@berryxia · 5月20日39

兄弟们，NVIDIA CEO Jensen Huang亲口说了一句让我彻底重构对Claude认知的话： “每个工程师未来都要管理和使用几百个AI agent。” 这句话不是未来时，而是现在进行时。我今年刷了几乎所有重磅AI演讲，这一句直接把我点醒了。普通人打开Claude，打几个字，看完答案就关掉，以为这就是用AI。其实那只占Claude能力的10%。真正的高手不是在prompt，而是把Claude当操作系统用：他们建工作流、链式输出、掌控上下文、让AI按照自己的思考方式去工作。同一份订阅，同一款模型，结果却天差地别。

译NVIDIA CEO Jensen Huang指出，每位工程师未来都需要管理和使用数百个AI agent，且这一趋势已成为当前现实。推文作者强调，大多数人目前只发挥了Claude约10%的能力，而真正的高效使用者将其视为一个操作系统，通过构建工作流、链式输出和掌控上下文，让AI深度契合个人思考方式。这导致同一工具在不同用户手中产生巨大成效差异。

Anthropic@AnthropicAI · 5月20日60

Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questions AI raises—starting with how good character forms. Read more about how we’re widening the conversation on frontier AI: https://www.anthropic.com/news/widening-conversation-ai

译过去几个月，我们一直与学者、哲学家、神职人员和伦理学家就AI引发的问题展开对话，从良好品格如何形成开始。了解更多我们如何拓宽关于前沿AI的对话：https://www.anthropic.com/news/widening-conversation-ai