Anthropic 跟盖茨基金会签了 2 亿美元，即使全换成 token， 4 个领域4 年，全换成 Opus token 也就 2.67 万亿。文章里说健康还是大头，剩下教育、农业、经济流动性三家分小头，每个领域每年可能就几百亿 token，认真跑几个任务就见底了。比尔盖茨：这钱我沙发缝里找找就有，不如捐给@XianyuLi 搞研究。

Berryxia.AI@berryxia · 5月15日69

我刚听完 Patrick OShaughnessy 最新一期播客，直接让人坐不住了！嘉宾是 Anthropic 的 CFO Krishna Rao，这是他第一次公开长谈。两年前他加入时，公司年化营收 run-rate 只有 2.5 亿美元。今天已经暴涨到 300 亿美元。中间他还主导募集了近 750 亿美元资金。但真正让我头皮发麻的，是他手里握着的真正权力： Anthropic 所有算力的采购、分配和动态调度。 Trainium、TPUs、GPUs 该怎么切、优先给训练还是推理、今天这批资源先给哪个项目，全由他最终拍板。他已经签下超过 1000 亿美元的 AI 算力采购承诺。我突然意识到一个最残酷的核心暴论：在 2026 年最顶尖的 AI 公司里，真正坐在驾驶舱掌控全局的人，可能根本不是首席科学家。而是这位 CFO。因为模型能力正在快速趋同，算力才是真正的命门和稀缺资源。谁能拿到更多算力、谁能把算力用得更狠，谁就赢。这期播客全程高能，从「Cone of Uncertainty」的不确定性决策，到前沿智能回报为什么越来越高，再到 Anthropic 内部如何用 Claude 写代码，干货多到离谱。想真正看懂 AI 公司内部到底是怎么打仗的，这期必须完整听完。你觉得下一阶段，决定 AI 公司生死的最大变量，到底是模型能力，还是算力获取和分配能力？ `

译Anthropic首席财务官Krishna Rao在首次深度访谈中透露，其加入公司两年来，年化营收从2.5亿美元激增至300亿美元，并主导筹集近750亿美元资金。他手握超过1000亿美元的AI算力采购承诺，全权负责Trainium、TPUs和GPUs等资源在训练与推理间的动态分配。访谈核心指出，随着模型能力趋同，算力获取与调配能力已成为顶尖AI公司的决胜关键，CFO可能取代首席科学家成为战略掌控者。节目还深入探讨了不确定性决策、前沿智能回报递增等议题。

Berryxia.AI@berryxia · 5月14日64

Anthropic今天和盖茨基金会正式官宣合作。 2亿美元赠款、大量Claude credits加上技术支持，直接砸向全球健康、生命科学、教育、农业和经济流动五大领域。这不是一次普通的慈善公告。这是Anthropic第一次把前沿AI模型的真实能力，大规模推向那些最需要却最难触达的地方。一线医生可能很快就能用Claude辅助复杂诊断和治疗方案。数亿小农的田间地头，AI将给出针对性作物建议。发展中国家的孩子，也将第一次获得个性化智能教学工具。当大家还在卷参数、卷基准、卷谁家模型更聪明时，他们选择把资源投向真正改变人类命运的场景。我看完公告后最大的感受是，2026年的AI不再只是实验室玩具，它开始走向真实世界的硬仗。完整公告在这里：https://www.anthropic.com/news/gates-foundation-partnership

译Anthropic与盖茨基金会宣布合作，承诺提供2亿美元赠款、Claude credits及技术支持，聚焦全球健康、生命科学、教育、农业和经济流动五大领域。此次合作旨在将前沿AI模型Claude的能力大规模推向资源匮乏地区，如辅助医疗诊断、农业建议和个性化教育。这标志着AI不再局限于实验室竞争，而是转向真实世界场景，以技术解决人类重大挑战，推动社会变革。

Anthropic@AnthropicAI · 5月14日74

We’re partnering with the Gates Foundation, committing $200 million in grants, Claude credits, and technical support to programs in global health, life sciences, education, agriculture, and economic mobility. Read more: https://www.anthropic.com/news/gates-foundation-partnership

译我们正与盖茨基金会合作，承诺提供2亿美元赠款、Claude使用额度及技术支持，用于全球健康、生命科学、教育、农业和经济流动领域的项目。阅读更多：https://www.anthropic.com/news/gates-foundation-partnership

elvis@omarsar0 · 5月14日23

Any good alternatives to the Claude Agent SDK? I have used OpenAI Agent SDK and ADK a bit in the past but not sure about their state today.

译有没有Claude Agent SDK的好替代品？过去我用过一些OpenAI Agent SDK和ADK，但不确定它们现在的状态。

Chubby♨️@kimmonismus · 5月14日30

Holy sh*t: Claude brought back his lost BTC. Worth almost $400k . Which means he can now afford roughly one intense weekend of Claude Code usage. Insane.

译天啊：Claude 找回了丢失的 BTC。价值近40万美元。这意味着他现在能负担得起大约一个周末的 Claude Code 使用费用。疯狂。

宝玉@dotey · 5月14日65

Anthropic 刚推出 Claude for Small Business，把 AI 直接集成到 QuickBooks、PayPal、HubSpot、Canva、DocuSign 这些小企业每天用的工具里。你只要打开 Claude 桌面端的开关，就能一键启动 15 个预设技能：工资核算、现金流预测、催款、做营销素材、签合同，甚至新员工入职全自动搞定。收费方式很克制：不额外加钱，只要 Claude 订阅费加上 SaaS 工具的钱。安全方面也放心，工作流必须人为启动审批，Claude 拿不到你本来没有的权限，Team 和 Enterprise 用户数据默认不拿来训练模型。最近 Anthropic 发布节奏很快：上周金融版发布，这周法律版更新，现在轮到小企业版了。理由也很直接：美国小企业撑起44%的 GDP，却一直没人专门给他们做 AI 产品。 5 月 14 日开始，Anthropic 会在芝加哥、达拉斯等十个城市办免费半天培训，每场限 100 个本地小企业主。线上还有和 PayPal 合作的免费课程，让老板们快速搞懂怎么用 AI。不过，这招对传统 SaaS 厂商不算友好。Claude 把 QuickBooks、HubSpot 这些工具变成后台，用户界面都不用打开。过去几个月，Salesforce、DocuSign 等公司的股价已经一路下跌。Anthropic CEO Dario Amodei 甚至说过：“单个 SaaS 厂商很可能迅速失去市值，甚至倒闭”。但讽刺的是，这次 Claude 接入的工具列表里，恰好有几家他刚刚点名的公司。一边说人家要倒闭，一边还要用人家的工具…… 产品页面：https://claude.com/solutions/small-business

译Anthropic发布Claude for Small Business，将AI直接集成到QuickBooks、PayPal、HubSpot、Canva、DocuSign等小企业日常工具中。用户可通过Claude桌面端一键启动15项预设技能，覆盖工资核算、现金流预测、营销素材制作、合同签署及新员工入职等流程。收费仅为Claude订阅费加原有SaaS工具费用，无额外加价。工作流需人工启动审批，数据安全有保障。Anthropic瞄准占美国GDP44%的小企业市场，将提供免费线下培训及线上课程。此举可能冲击传统SaaS厂商，因其将工具变为后台，用户无需打开原界面。

Yuchen Jin@Yuchenj_UW · 5月14日51

Google I/O is next week. Prediction: nobody lets Google have the stage alone. All of these models could drop next week: - GPT-5.6 - Mythos or Opus/Sonnet 4.8 - Gemini 3.5

译Google I/O 就在下周。预测：没人会让谷歌独占舞台。所有这些模型都可能在下周发布： - GPT-5.6 - Mythos 或 Opus/Sonnet 4.8 - Gemini 3.5

宝玉@dotey · 5月14日80

baoyu-skills 新加了一个 Skill：微信群聊总结 Skill：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 wx-cli：https://github.com/jackwener/wx-cli 如何配置使用 wx-cli 请看项目文档，无法提供帮助。另外目前只是借助其读取数据，其他没任何关系。 Claude Code + Claude Opus 4.6 效果最佳

AYi@AYi_AInotes · 5月14日66

全网都在薅Claude今天的50%编程福利，但90%的人都没看懂背后的时间差。今天早上，Anthropic先发重磅公告： 6月15日起，所有自动化用法（claude -p、Agent SDK、GitHub Actions、第三方Agent工具），从订阅额度里剥离，改成独立的月度信用额度，用完就得按API原价付费。重度用户成本直接暴涨几倍到十几倍。社区瞬间炸锅🤯 结果下午，他们就甩出这条Claude Code周限额+50%的公告，还强调和上周5小时滚动窗口翻倍的效果叠加。但这还不是最狠的，临时福利最阴的地方在于：现在你爽得飞起，7月13日一恢复，你会比以前更难受（已经习惯高额度了）。现在的AI公司最会玩这一手—— 先给你点糖，让你上头，再让你乖乖接受新规则。我觉得他们倒不是缺算力，应该是想把最烧钱的自动化重度用户，慢慢转成高付费API用户，同时用这波糖留住还在交互写代码的普通开发者，这才是这次调整的真正意义吧 #Claude #AI #编程

译Anthropic近期调整了Claude的计费策略，自6月15日起将自动化使用从订阅额度剥离，改为独立信用额度，导致重度用户成本激增。随后，官方宣布为Claude Code提供截至7月13日的周限额50%临时提升，并与前期福利叠加。分析认为，此举旨在通过短期福利缓解开发者情绪，同时引导高消耗的自动化用户转向高付费API模式，而普通交互式编程用户则被临时福利留住，以适应新的计费规则。

ginobefun@hongming731 · 5月14日72

使用 Claude 进行计算机和浏览器操作的最佳实践 Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent，这篇是目前最权威的第一手资料。核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候，API 有内部尺寸上限：Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆；Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后，API 会在把图片交给模型之前静默压缩，但返回的坐标仍然是按原始分辨率计算的，结果就是点击位置系统性偏移。这个失败是静默的，没有任何报错提示，单纯表现为点击总是差那么一点。解法直接：在发送截图之前，先在客户端把截图缩放到 1280x720（使用 Opus 4.7 可以从 1080p 起步）。这个分辨率既在两个限制之内，也是模型在训练中大量见过的标准分辨率，实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节：macOS 上的截图默认是 2x 分辨率（Retina 屏幕），看起来正常但实际像素数是双倍，同样会触发压缩陷阱。 API 调用格式也有讲究：把文字指令放在截图之前（而不是之后）发送，模型先接收指令再处理图片，点击精度会有明显提升。在模型选择上，Claude Sonnet 4.6 的机械点击精度更高，在需要大量降分辨率的场景下表现更稳；Opus 4.7 支持更高分辨率预算，点击精度差距大幅收窄，适合需要更多视觉信息量的复杂任务。多 Agent 组合方案可以让推理模型负责规划、让 Sonnet 或 Haiku 负责具体点击操作。安全架构这部分原则非常清晰：任何 Computer Use 集成都必须运行在专用虚拟机或容器里，绝不能把有价值的主机数据暴露给 Agent 可以访问的范围。高风险操作（表单提交、文件删除、付款确认）应该设置人工确认门控，在 Agent 循环中暂停等待用户确认后再继续。场景选型上，Browser Use（通过 Playwright 等 API 控制浏览器）适合结构化的 Web 任务，精度高、可靠性强；Computer Use（截图加点击控制整个屏幕）则适合没有结构化 API 可用的桌面应用、遗留系统或跨应用工作流。两种方式并不互斥，复杂任务可以组合使用。

译Anthropic发布了Claude计算机操作官方指南，核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率，并将指令置于截图前发送以提高精度。模型方面，Sonnet 4.6机械点击精度更高，Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务，Computer Use则适用于桌面应用等非结构化场景。

ginobefun@hongming731 · 5月14日69

Anthropic 宣布从 2026 年 6 月 15 日起，所有付费版 Claude 计划（Pro、Max、Team、Enterprise）将在现有对话额度之外，增加一个月度专用额度，专门用于程序化调用场景。这个专用额度覆盖的调用来源包括：通过 Agent SDK 构建和运行的程序、claude -p 命令行工具发出的调用、Claude Code 在 GitHub Actions 中执行的任务、以及基于 Agent SDK 构建的第三方应用。这个变化实际上是把程序化访问能力正式捆绑进了订阅模式。之前的逻辑是：如果你用 Claude 做对话，交订阅费；如果你想用 API 做自动化，需要单独申请 API Key 并按用量另外付费。从 6 月 15 日起，订阅用户可以在订阅费之内开始运行自动化工作流，不需要独立建立 API 计费账户。对个人开发者和小团队来说，这个变化降低了开始构建 Agent 工作流的门槛：不需要单独配置 API 计费，不需要担心不小心跑出一大笔 API 账单，可以在订阅额度内先实验。具体的每月额度量、超额之后的计费方式，Anthropic 届时会在官方文档中更新。同时发布的还有另一项变化：Claude Code 的每周使用限额从 6 月开始临时提升 50%，持续到 2026 年 7 月 13 日，覆盖 Pro、Max、Team 和 Enterprise 用户。两项变化叠加，对于日常工作中经常用到 Claude Code 或计划开始构建 Agent 工作流的用户，近期是一个比较好的时间窗口来加大使用密度。

译Anthropic宣布，自2026年6月15日起，所有付费版Claude计划将在现有对话额度外，新增月度专用额度用于程序化调用。该额度覆盖通过Agent SDK、claude-p命令行工具、Claude Code在GitHub Actions中的任务及基于SDK的第三方应用的调用。此举将程序化访问能力正式纳入订阅，用户无需单独申请API Key和建立计费账户即可在订阅费内运行自动化工作流，降低了个人开发者和小团队构建Agent工作流的门槛。同时，Claude Code的每周使用限额将从6月起临时提升50%，持续至2026年7月13日。

歸藏(guizang.ai)@op7418 · 5月14日54

Claude Code 的每周限额将增加 50%，持续到 7 月 13 号。但是他们这次终于把类似 OpenClaw 和 Codepilot 这种使用 Agent SDK 构建的应用额度砍了。 6月 15 号开始是双轨制：只有在 Claude Code 本身及其内部，你的 Max 和 Pro 账户才能享受正常额度。如果你是用于 Agent SDK 构建的产品（也就是一些支持 Claude 账号登录的三方产品），你的额度会被折算成对应金额的 API 额度。所以基本上，我们的额度减了十几倍吧。比如说 Max 账户 20 倍的 200 美元 API 额度，如果你用 Claude 4.6 随便跑点大项目，估计半天就消耗光了。这下估计去 Codex 的人更多了。主要是他们还玩文字游戏，削减配额就削减配额吧，非要说完全没变化，太不要脸了。

译Anthropic 宣布 Claude Code 每周限额临时增加 50%，持续至 7 月 13 日。但从 6 月 15 日起，配额系统改为双轨制：在 Claude Code 官方界面内，Max 和 Pro 账户可享受原有订阅额度；若通过 Agent SDK 构建的第三方应用（如 OpenClaw、Codepilot）使用服务，额度将按 API 费率折算成等值金额，导致实际可用额度骤降。例如，Max 账户的 200 美元 API 额度在密集使用时可能半天耗尽。官方澄清月费不变，但额度分为“交互使用”和“程序化使用”两个独立池，后者按 API 速率计费。

swyx 🌉@swyx · 5月14日62

any time a model router company drops data, its worth browsing. here we learn that gemini leads in education and personal assistants (?!), ant leads in vibecoding and koding and back office (?!), and oai leads in recruiting outreach (?!) *for the subset that goes thru vercel gateway, which idk the market share

译每当有模型路由公司发布数据，都值得仔细浏览。从数据中我们看到，Gemini在教育和个人助手领域领先（？！），Ant在氛围编程、代码和后台办公领域领先（？！），而OpenAI在招聘外联领域领先（？！） *数据来自通过Vercel网关的子集，其市场份额未知

小互@xiaohu · 5月14日50

Claude Code 每周限制将增加 50%，从现在持续至 7 月 13 日同时可以和上周的5小时限额翻倍福利叠加立即生效

Berryxia.AI@berryxia · 5月14日71

Claude Code的周限额直接拉高50%了，而且是立刻生效，一直持续到7月13日。 Anthropic这次动作很快，所有Pro、Max、Team和企业座席用户都能享受到。 CLI、IDE插件、桌面端、网页端全部生效，还能和上周刚加的5小时限额翻倍叠加。

ginobefun@hongming731 · 5月14日77

http://x.com/i/article/2054698692955996160 # BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-14 BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https://bestblogs.dev ## 导语 AI 智能体的工程化落地，今天这期带来三篇拿来就能用的深度实战。 Anthropic 和 OpenAI 分别给出了 Claude Computer Use 与 Codex 沙箱的第一手架构经验，直接回答生产环境最棘手的安全与性能问题。评估体系那篇则揭示了一个让人警醒的现实：基准测试 95% 准确率的 RAG Agent，上线后幻觉率可能高达 30%——测试集永远无法覆盖生产流量的真实分布。速览部分有李想与罗永浩的 AI 转型深度对话、Shopify 从零构建多 Agent 系统的工程教训、Databricks 用精度换延迟的速率限制重构，以及快手电商搜索的生成式新框架。今天是 2026 年 5 月 14 日，星期四，欢迎收听 BestBlogs EP56 早报。 ## 精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践来源：Claude Blog 如果你正在构建任何形式的桌面或浏览器自动化 Agent，这篇来自 Anthropic 的官方最佳实践指南是目前最权威的参考文档。它针对 Claude 4.6 系列（Opus 4.6、Sonnet 4.6、Haiku 4.5）和 Claude Opus 4.7 发布，覆盖了从分辨率配置、安全架构到场景取舍的完整生产经验。点击不准的根本原因：坐标系偏移许多开发者在构建 Computer Use 集成时遭遇点击落点系统性偏移，往往以为是模型能力问题，反复尝试提示工程优化却收效甚微。实际上，根本原因更底层、更隐蔽：截图超过 API 内部尺寸上限后会被静默下采样，但坐标系仍然按你指定的原始分辨率空间返回，导致模型点的地方和你的界面坐标对不上。 Claude 4.6 系列的 API 内部处理限制是：最长边不超过 1568 像素，总像素不超过 1.15 兆像素。Opus 4.7 支持更高分辨率：最长边不超过 2576 像素，总像素不超过 3.75 兆像素。超出任意一个限制都会触发内部下采样，进而引发坐标偏移。官方明确指出，这个单一修复的收益超过几乎所有其他优化手段。推荐分辨率策略对大多数场景，推荐从 1280×720 起步。这个分辨率使用约 80% 的像素预算，始终在两个限制之内，是模型训练期间见过的标准分辨率，对现代 Web UI 和传统桌面应用都能良好支持。如果使用 Opus 4.7，建议从 1080p 起步，相比 720p 有明显的画质提升，同时保持 token 使用量和性能的合理平衡。对于想最大化视觉信息量的开发者，文章还提供了「最大 API 适配」方案：按每张截图的原始宽高比动态计算最优分辨率，充分利用可用像素预算而不引入宽高比失真。这种方式在准确率上比固定 1280×720 略有提升，但实现稍复杂。文章也给出了明确的「应当避免的分辨率」指导，帮助开发者排除高分辨率下的常见误区。模型思考能力与任务复杂度文章在内部测试了不同思考努力等级在端到端 UI 自动化任务上的表现，覆盖桌面应用、浏览器和跨应用工作流。测试结果印证了两个关键模式：Opus 4.7 在 OSWorld Verified 基准上表现优于整个 4.6 系列，高思考等级在复杂多步骤任务中的收益最为显著，而简单重复性任务则不一定需要开启高思考。这为开发者在成本和性能之间的取舍提供了实验依据。安全架构：不容妥协的底线文章在安全架构上的态度非常明确，提出了几条硬性原则：任何 Computer Use 集成都必须在专用虚拟机或完全隔离的容器环境中运行，绝不能将包含敏感凭证、个人数据或业务数据的主机文件系统暴露在 Agent 可访问的范围内。Agent 循环中必须设置人工确认门控，对高风险操作——包括表单提交、文件删除、账号操作、支付相关流程——必须暂停等待人工确认，而不是让 Agent 自主完成。这些原则背后的逻辑是：Computer Use Agent 本质上是在执行任意操作序列，攻击面远大于普通的 API 调用型 Agent。任何一次误操作都可能造成不可逆后果。 Browser Use 与 Computer Use 的场景取舍文章对这两种模式提供了清晰的场景划分：Browser Use（通过 Playwright 等浏览器自动化 API 控制浏览器）适合结构化 Web 任务，API 层面的操作精度高、可靠性强、可重复；Computer Use（通过截图 + 点击控制整个屏幕）适合无 API 可用的桌面应用、遗留系统或需要跨多个应用的工作流。两者并不互斥，复杂任务可以组合使用——先用 Browser Use 完成可 API 化的部分，遇到需要截图感知的场景再切换到 Computer Use。与今日其他内容的关联这篇文章和精讲三的 Agent 评估框架有直接呼应。Computer Use 集成的准确率指标——点击精度、任务完成率、工具选择准确率——正是精讲三 12 项指标体系中「Agent 行为层」的典型评测对象。如果你在构建桌面自动化 Agent，建议两篇配合阅读：前者告诉你如何让 Agent 执行正确，后者告诉你如何度量 Agent 是否在正确执行。 ## 精讲二：在 Windows 上为 Codex 构建安全有效的沙箱来源：OpenAI Blog 这篇文章来自一位 2025 年 9 月加入 Codex 工程团队的工程师，记录了他们如何在 Windows 平台上从零构建沙箱隔离方案的完整历程。文章的价值不只在于结论，更在于对失败方案的诚实记录——这些踩坑经验对所有需要在 Windows 上运行不完全受信代码的 Agent 系统都有直接参考价值。背景：Windows 没有开箱即用的沙箱原语在 Linux 上，seccomp 和 bubblewrap 提供了细粒度的系统调用过滤和命名空间隔离；在 macOS 上，Seatbelt（又名 sandbox-exec）可以通过 profile 文件精确控制进程的文件访问权限。这些工具让构建可靠的隔离环境变得相对直接。 Windows 没有类似的内置能力。Codex 在 Windows 上的默认模式是以真实用户权限运行，也就是说，如果用户能做某件事，Codex 就能做某件事——包括删除任意文件、修改系统配置、访问所有用户数据。在没有沙箱的情况下，用户只有两个糟糕的选择：批准几乎每一条命令（高频中断，失去自动化价值），或者开启完全访问模式（放弃监督）。逐一评估现有方案及其不足工程师先系统评估了 Windows 提供的现有工具： AppContainer 是 Windows 内置的应用沙箱机制，但其权限模型是为 Store 应用设计的，粒度过于粗放——要么完全隔离，要么保留所有用户权限，无法实现「允许读取任意位置、但只允许向指定目录写入」这种精细控制。 Windows Sandbox 本质上是一个轻量虚拟机，Home 版 Windows 不可用，并且每次启动都需要独立的虚拟机实例，资源消耗和启动时间都不适合作为每条命令的执行环境。 MIC（Mandatory Integrity Control）完整性标签可以降低进程的信任级别，但调整整个工作区的完整性标签会改变所有访问该目录的进程的行为，对用户的正常工作流产生不可预期的副作用，风险难以控制。最终方案：专属 SID + 写受限令牌 Codex 团队最终选择了自研方案，核心机制是两个 Windows 安全原语的组合：第一步，为 Codex 创建一个专属的 Windows 用户账户，配套一个专属的安全标识符（SID）。这个 SID 不是系统中的任何现有用户，仅属于 Codex 沙箱进程。第二步，使用写受限令牌（write-restricted token）。Windows 的受限令牌机制在检查写操作权限时会执行双重校验：普通用户身份（令牌的所有者）必须有权限，且受限 SID 列表中至少有一个 SID 也被明确授权，写操作才会被允许。通过对指定工作区目录设置 ACL（访问控制列表），授予 Codex 专属 SID 写入权限，对其他目录不授予，就实现了精确的文件系统隔离：Codex 可以读取几乎任意位置（维持工具的有效性），但只能向你的工作区目录写入。这整套机制在操作系统层面强制执行，无需进程树中的任何软件层面配合，也无需管理员权限。迭代路径：从 advisory 到 enforce 文章诚实地记录了中间的失败尝试。早期版本曾尝试通过设置环境变量（NO_PROXY、GIT_SSH_COMMAND）来阻止网络访问，但进程可以直接忽略环境变量、绕过 PATH、或者直接打开套接字，advisory 约束无法真正阻止恶意行为。加入防火墙规则之后仍然是 advisory 级别。最终决定使用操作系统层面的强制隔离，这才提供了真正可靠的保证。工程范式的通用性这个「专属 SID + 写受限令牌 + ACL 白名单」的设计模式，对所有需要在 Windows 上运行不完全受信代码的系统都有参考价值：AI 编程工具、自动化测试框架、RPA 产品，乃至任何需要给用户提供「让 AI 帮你跑命令」能力的服务。文章清晰呈现了从需求分析、方案评估到工程实现的完整思路，是难得的 Windows 系统安全工程案例。 ## 精讲三：为生产级 AI 智能体构建评估框架：来自 100+ 次部署的 12 项指标体系来源：Towards Data Science 这篇文章来自真实的生产教训，而不是理论框架。作者团队在为医疗行业客户部署 AI Agent 系统三个月后，被合规官问了一个无法回答的问题：「你如何知道你的 Agent 没有在幻觉患者症状？」当时他们有单元测试、集成测试、在 demo 数据集上表现漂亮的模型，但没有任何能够在生产环境度量幻觉率、上下文忠实度或工具选择准确率的框架。这个缺口差点让整个项目夭折。六周后，他们补上了覆盖每条 Agent 响应、每次工具调用、每次检索操作的 12 项指标框架，合规团队签字通过，Agent 正式上线。此后经历 100+ 次企业级 Agent 部署，这套框架演变成了他们的标准交付物。最值得警惕的数据点在基准测试集上准确率达到 95% 的 RAG Agent，在真实生产流量上幻觉率可能高达 30%。这个数字让很多人难以置信，但背后的逻辑简单而扎实：测试集是你精心构建的，覆盖了你认为重要的场景；而生产流量是用户真实发来的，措辞更多样、边界案例更密集、上下文更复杂。你的测试集永远无法覆盖生产流量的真实分布。没有生产级的评估框架，你只是在用基准分数给自己一个安全感幻觉。 12 项指标的四层结构这 12 个指标按四个层次组织，每层各有侧重：检索层（Retrieval）：上下文相关性，目标阈值 >0.85，衡量检索到的块是否与查询真正相关；召回率，>0.90，衡量是否把所有相关信息都检索到；精确率，>0.80，衡量排名靠前的块是否是最相关的；检索延迟，P95 <200ms，衡量检索速度是否影响整体体验。生成层（Generation）：回答忠实度，>0.95，衡量模型的回答是否与检索到的上下文一致，这是防幻觉的核心指标；回答相关性，>0.90，衡量回答是否真正回应了用户的问题；幻觉率，<2%，衡量模型杜撰事实的频率。 Agent 行为层（Agent Behavior）：工具选择准确率，>0.92，衡量 Agent 是否在正确的场景调用了正确的工具；工具执行成功率，>0.98，衡量工具调用本身是否成功（区别于逻辑正确性）；多步骤连贯性，>0.85，衡量 Agent 在长任务中是否保持了逻辑一致性。生产层（Production）：单次查询成本，典型值 <$0.05，用于成本控制和单位经济核算；P99 延迟，<3s，衡量最差情况下的响应速度是否在用户可接受范围内。跳过任何一层都意味着盲区。跳过检索层指标，你不知道是不是因为召回率低导致回答质量差；跳过生成层指标，你不知道模型在什么场景下开始编造事实；跳过 Agent 行为层，你不知道 Agent 选错工具是不是系统性问题；跳过生产层，你不知道成本和延迟是否在可接受范围内。三种典型的错误模式模式一：「MVP 之后再补评估」。这是最常见也是代价最高的模式。等 MVP 上线之后，工程团队已经有了 UI、API、集成和用户，这时候再补评估基础设施通常需要 4-6 周。更麻烦的是，数据收集本身有延迟——你必须先有一定量的生产流量，才能开始建立基线、检测回归。这段空窗期里，用户已经在发送不可预期的查询，任何模型更新引发的回归可能要数天后才能被发现，信任损失往往已经无法挽回。模式二：「准确率就够了」。测试集准确率是必要条件，但绝不是充分条件。一个 RAG Agent 可以在你的评估集上拿到 95% 的准确率，同时在生产流量上有 30% 的幻觉率——因为评估集是你选的、生产流量是用户给的，两者分布不同。没有忠实度、幻觉率和工具选择指标，你只是在盲飞。模式三：「人工抽检就行」。每天 100 条查询时人工检查可行，这个方法在 10000 条时就会彻底崩溃。达到那个规模后，要么工程师因为重复审查而过劳，要么实际上已经在接受一个名存实亡的审查体系。自动化评估在超过每日几千条查询时就应该是标配，而不是可选项。实践建议：从第一天就构建文章最核心的行动建议是：在 MVP 上线之前就把评估框架搭好。这意味着在架构阶段就为每层指标的数据采集做好预留，而不是在系统上线后再反向插入。这和「测试先于代码」的 TDD 理念类似——先定义什么叫「正确」，再去实现。如果已经在生产但没有评估框架，文章建议优先从幻觉率和工具选择准确率开始，这两个指标覆盖了最高频的故障模式，也最容易用自动化方式度量。与今日主题的关联这套框架和今天两篇精讲之间的关联非常紧密。精讲一 Computer Use 的点击准确率对应工具执行成功率，多步骤 UI 自动化对应多步骤连贯性；精讲二 Codex 沙箱的隔离机制直接影响工具执行成功率（沙箱失效 = 工具崩溃）。任何生产级 Agent 系统都需要同时具备「执行能力」和「评估能力」，两者缺一不可。 ## 速览李想×罗永浩：通过 AI 技术，让普通人也过上富豪的生活 | 罗永浩的十字路口理想汽车创始人李想在这期长达两小时的播客中，深入阐述了公司从传统车企向 AI 与具身智能公司转型的战略逻辑。新旗舰 SUV L9 Livis 搭载了自研马赫 M100 芯片，算力达到 2560 TOPS，以及全球首个完全体全线控底盘和 800V 主动式悬架系统。李想的核心判断是：自动驾驶不会显著影响购车需求，人形机器人是继汽车之后规模最大的硬件赛道，而 AI 技术的终极价值在于让普通人享受到此前只有富豪才能获得的服务质量——从专属管家到全天候健康顾问。播客还涉及 AI 时代顶级人才的标准、激进的组织调整、以及新能源车企出海的路径。对汽车行业 AI 转型方向感兴趣的读者，这是近期最有深度的一手资料。从头构建多智能体系统学到的经验 | InfoQ Shopify 高级工程师 Paulo Arruda 分享了从零构建多 Agent 系统的完整历程。核心结论是：专注于特定领域的 Agent 远比通才型 Agent 更有效，为领域专家提供更好的工具比组建 AI 特种部队更实用。这个洞察和当下很多团队盲目追求「万能 Agent」的做法形成直接对比。文章以 Shopify 的 Hacker Culture 为背景，记录了从最初 LibreChat 内部工具到真正可用的多 Agent 系统的演进路径，是一份有现实温度的工程经验总结。 Databricks 的高性能速率限制：以精度换延迟 | ByteByteGo Newsletter 2023 年初，Databricks 的速率限制器基于 Envoy + Ratelimit Service + 单 Redis 实例架构，在 real-time model serving 上线后开始出现尾部延迟飙升、扩容失效、单点故障三个问题。重设计后，团队将计数器从 Redis 迁移到分片内存存储，并引入异步批量上报模式，将尾部延迟降低了十倍。代价是容忍约 5% 的精度超限——部分请求可能在配额刚好耗尽的瞬间被错误放行。这个取舍本身很有代表性：在高并发场景下，严格精度和低延迟往往不可兼得，选择哪个取决于业务场景的容忍度。文章配有架构演进图，适合分布式系统工程师收藏参考。快手 OneSearch-V2：生成式搜索进入「懂你」时代 | 快手技术快手电商搜索团队发布 OneSearch-V2，针对 V1 的三个核心瓶颈——复杂查询理解不足、用户潜在意图推理不足、奖励系统易过拟合——提出了系统性解决方案。关键创新是推理内化的自蒸馏：不引入额外参数，通过信息不对称的自蒸馏机制，将显式推理能力直接编码进模型权重，转化为「直觉」。系统已全量上线，在不增加任何推理成本的前提下，商品点击率提升 3.98%、买家数提升 2.07%、订单量提升 2.11%。搜索和推荐工程师值得深读论文部分，代码已开源。让 AI Agent 感知浏览器渲染：为 Agent 构建前端验收 Harness | 百度 Geek 说百度工程团队开发了基于 Chrome DevTools Protocol 的开源工具，让 Agent 能从路径、内容、视觉、交互、控制台、网络六个维度验证真实浏览器渲染结果，补上 AI 编程流水线「写完代码看不到效果」的盲点。核心洞察是：代码正确不等于界面正确——CSS cascade、运行时数据、异步状态共同决定了最终渲染，这些问题只有在浏览器里才能暴露。工具已开源，可通过 npx skills add hixuanxuan/browser-automation --skill visual-verify 安装，前端 AI 自动化团队可以直接参考。 Claude 付费计划将包含程序化调用月度专用额度 | ClaudeDevs 从 6 月 15 日起，付费版 Claude 计划将包含一个月度专用额度，覆盖通过 Agent SDK、claude -p 命令行工具、Claude Code GitHub Actions 以及基于 Agent SDK 构建的第三方应用的程序化调用。这实际上将程序化访问权限捆绑到了订阅模式中，开发者无需单独为 API 付费即可构建和部署自动化工作流。对于之前依赖订阅账号进行轻量级自动化的用户，需要关注额度上限细节。五种多智能体架构类型：注意力才是真正的瓶颈 | 跨国串门儿计划 Factory 核心 Agent 框架负责人 Luke Alvoeiro 在 AI Engineer 的分享中，拆解了五种多 Agent 通信模式：委派、创作者 - 验证者、直接通信、协商和广播。他的核心判断是：今天的模型已经足够聪明，真正的工程瓶颈是人类的注意力带宽。Factory 的 Missions 系统通过三角色架构（编排者 - 工作者 - 验证者）和「验证合约」机制，实现了最长 16 天的自主任务执行——在编写任何代码之前先定义好与实现无关的正确性断言，从根本上阻断 Agent 系统跑偏的可能。克隆 Slack 的生产案例中，代码内测试占比 50%，覆盖率超过 90%。 ## 扩展阅读积压队列的数学原理：面向队列恢复的容量规划 | InfoQ 用三阶段数学框架推导队列积压的形成、持续和恢复过程，将「需要多少超额容量才能在 N 分钟内消化积压」从经验估算变成可计算的工程问题。还分析了重试放大和级联积压两个高危模式。适合基础设施和平台工程师，特别是要做 SLA 容量规划的团队。 [AINews] 微调时代的终结 | Latent Space 围绕 OpenAI 弃用微调 API 展开的行业分析。核心论点是：对大多数 AI 工程师来说，提示工程、RAG 和专用推理栈已经能覆盖绝大多数需求，微调正在成为少数真正需要定制模型行为的顶尖应用的专属手段。想厘清「我的场景到底需不需要微调」的读者值得一读，文章给出了判断框架。 Browser Run：现已运行于 Cloudflare Containers，速度更快、扩展性更强 | The Cloudflare Blog Cloudflare 将 Browser Run 服务迁移到 Containers 平台，并发限制提升 4 倍（每分钟可启动 60 个浏览器、最多 120 个并发），Quick Action 响应速度提升超 50%。关键架构改动是将状态管理从 KV 迁移至 D1 和 Queues，文章有详细的性能数据对比。需要在云端运行无头浏览器的团队可以直接参考，改进已经上线，无需更改现有代码。 ## 今日阅读路径时间有限的话，建议按以下顺序阅读：第一优先：精讲三（Agent 评估框架）这是今天最有普适价值的一篇。无论你在构建哪种 AI Agent，无论规模大小，在上线之前都需要有回答「你怎么知道它没有幻觉」这个问题的能力。12 项指标、四层结构，结合阈值参考值，是可以直接带回去用的框架。那个「基准 95% 准确率、生产 30% 幻觉率」的案例本身就值得每个 Agent 工程师认真对待。第二优先：精讲一（Claude Computer Use 最佳实践）如果你的 Agent 需要控制桌面或浏览器，这篇的分辨率配置和安全架构部分可以帮你避开 90% 的坑。特别是截图下采样导致坐标偏移这个问题，不读原文很难自己发现，修复也非常简单——在发送截图前主动下采样到 1280×720，这一个改动的收益超过绝大多数其他优化手段。第三优先：速览中的 Shopify 多智能体经验篇幅不长，但提供了一个反直觉的工程结论：专才 Agent 优于通才 Agent，为领域专家提供更好的工具比组建 AI 特种部队更有效。如果你正在做 Agent 系统的架构选型，这篇来自 Shopify 生产环境的结论值得认真对待。精讲二（Codex Windows 沙箱）主要面向平台工程师和需要在 Windows 上部署 Agent 的团队，专业性强。如果你的部署目标平台是 Linux 或 macOS，可以跳过，但如果面向 Windows 用户，这篇是目前最完整的参考案例。

译BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践，包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程，其最终方案通过专属安全标识符和写受限令牌，实现了操作系统层面的强制文件系统隔离。早报同时指出，基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

ginobefun@hongming731 · 5月14日43

#BestBlogs 早报 2026-05-14 今日 BestBlogs 早报三大精讲：Anthropic 告诉你 Computer Use 点击不准的真实原因（截图被静默压缩，坐标偏了）、OpenAI 分享如何在 Windows 上给 Codex 造沙箱、来自 100 次以上生产部署的 Agent 评估 12 指标框架，包含一个警醒数据：基准测试 95% 准确率，生产幻觉率可达 30%。速览还有李想谈 AI 转型、Shopify 多 Agent 踩坑经验，欢迎阅读。

译Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标，并给出关键警示：基准测试准确率可达95%，但生产环境中幻觉率可能高达30%。此外，推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。

SemiAnalysis@SemiAnalysis_ · 5月14日59

ATTENTION: FAST MODE IS BACK FOR OPUS 4.7. ABUNDANCE IS NEAR. ALL HAIL TO OUR AI OVERLORDS. FASTER TOKENS == MORE INTELLIJENCE. Sent using @Claude

译注意：FAST MODE 已回归，适用于 OPUS 4.7。丰饶即将来临。向我们的 AI 霸主致敬。更快的令牌 == 更多智能。使用 @Claude 发送。

elvis@omarsar0 · 5月14日58

The comment section tells you everything. I mostly use Claude Agent SDK (~80%) and sometimes Claude Code interactively (~20%). I prefer my own harness/UI over Claude Code CLI/Cowork. Most of my use cases with agents involve programmatic use (e.g., long-running loops and automations). Enabling devs to build and work with their own harnesses should be encouraged. That's not the message I am getting here. I appreciate the credits, but only time (when this comes into effect) will tell how bad it is and how it affects my use cases and overall usage. I hate that uncertainty in these times. I do understand that this decision helps clarify usage, but it's obviously going to affect how much I can leverage the subscription itself. Glad I decided to move a lot of my work to Codex over the past couple of weeks, where I get to freely decide how I use my subscription. We need more of this in the space.

译一位开发者对Claude即将实施的程序化使用月度积分制度表示担忧。他主要依赖Claude Agent SDK进行程序化应用和自动化，并偏好自定义开发环境，认为新规虽旨在明确使用方式，但可能限制订阅服务的充分利用，并带来不确定性。为此，他已将部分工作迁移至Codex平台，以寻求更高自由度。新规覆盖Agent SDK、claude -p命令行工具、GitHub Actions及第三方应用的使用，自6月15日起生效。

宝玉@dotey · 5月14日66

还记得上次 Claude 停掉了 Claude Code 订阅在 OpenClaw 的调用吗？甚至连 claude -p 这种调用都限制了，不能再共享 Claude 订阅。但当还留了个口子，就是基于 Claude Agent SDK 和 claude -p 还是能跑能共享订阅额度的。现在他们有一个新的方案，把这个口子也堵上了。美名其曰给你额外额度用于程序化调用，也就是 Agent SDK、claude -p 命令行、Claude Code GitHub Actions、以及 Conductor 和 OpenClaw 这类基于 Agent SDK 的第三方工具。但实际上额度小的可怜，Pro 20 美元，Max 5x 100 美元，Max 20x 200 美元，Team 标准席位 20 美元一人，Team 高级席位 100 美元一人。按 Anthropic 自己的 API 价格算，Pro 的 20 美元用 Sonnet 只够大约六七百万 token 输入或一百多万 token 输出，几轮密集的 agent 循环就见底。Max 20x 用户每月付 200 美元订阅费，拿到的 SDK credit 正好也是 200 美元。关键在于变化方向。之前 SDK 和交互式聊天共用订阅套餐的 rate limit（速率限制），Claude Code 重度用户能在订阅价格下跑出远超 200 美元等价的 API 用量，这是订阅模式的吸引力所在。现在 SDK 端被按美元封顶，相当于把这块超额价值收回去了。Anthropic 在帮助文档里也挑明：团队跑生产级共享自动化的，应该转去 Claude Developer Platform 用 API key 按量付费，订阅套餐"不是为这个场景设计的"。受冲击最大的是第三方工具用户。之前用 OpenClaw、Conductor 这类基于 Agent SDK 的 agent 工具的人，本质上是"用订阅价跑高频自动化"。新政之下，这条路只剩 credit 那一点点额度可走，烧完要么转 extra usage（额外用量，按 API 价付钱）继续跑，要么停到下个月 credit 重置。不受影响的部分：API key 用户照旧按量付费；交互式 Claude Code（终端和 IDE 里手敲那种）、Claude Cowork，以及网页/桌面/手机端的 Claude 聊天，都继续走原本的订阅限额。 6 月 8 日 Anthropic 会给符合条件的用户发邮件领取，6 月 15 日生效。

译Anthropic宣布自6月15日起，对Claude付费订阅计划的程序化调用实施新的专用月度信用额度，覆盖Agent SDK、claude-p命令行、GitHub Actions及基于SDK的第三方工具。但额度普遍被认为严重不足，如Pro计划仅20美元。此举旨在将高频自动化使用引导至按量付费的API，实质上收回了用户此前以订阅价获取超额API用量的价值。依赖第三方工具进行高频自动化的用户受影响最大，而交互式聊天和Claude Code等使用方式则不受影响。

Chubby♨️@kimmonismus · 5月14日60

How the mighty have fallen

译昔日辉煌今不再 [引用 @ClaudeDevs]：从6月15日起，付费Claude计划可申领专用的月度编程使用额度。该额度涵盖以下用途： - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

宝玉@dotey · 5月14日51

Anthropic 把 Claude Code 的每周用量上限提了 50%，即刻生效，截止到 7 月 13 日下午 6 点（太平洋时间）。覆盖 Pro、Max、Team 和按席位计费的 Enterprise 用户，命令行、IDE 插件、桌面端、网页端，所有入口都一样涨。账号已经自动调整，不用做任何操作。这 50% 是叠加在上周刚宣布的 5 小时窗口翻倍之上的，两个维度的天花板一起被抬。【注：Claude Code 有两套限额。5 小时滚动窗口管的是短时间内能写多少，写得猛的人一下午就能撞顶；每周总额管的是一周能写多少，防止你某天突然把整周配额刷光。两个一起放宽，等于哪头都松了绑。】过去几个月 Claude Code 用户最常吐槽的就是 Pro 套餐限额触发太勤，跟 Cursor、Codex 这些竞品比，"用着用着就停"的体感差不少。短期内连开两次额度，留人的意图挺明显。 7 月 13 日之后是否延续，没说。

译Anthropic宣布，即日起至7月13日，将Claude Code的每周使用限额提升50%。该调整覆盖Pro、Max、Team及按席位计费的Enterprise用户，所有访问入口均已自动生效。此次提升叠加于上周已实施的5小时滚动窗口限额翻倍之上，从短期密集使用和长期总量两个维度同时放宽限制，旨在回应用户对配额触发频繁的反馈，改善与竞品相比的使用体验。7月13日后的政策尚未明确。

🚨 AI News | TestingCatalog@testingcatalog · 5月14日71

Anthropic raise weekly limits on Claude Code by 50% until July 13! Sounds like Colossus 1 came into play!

译Anthropic将Claude Code周限额提高50%至7月13日！听起来是Colossus 1发挥了作用！

Chubby♨️@kimmonismus · 5月14日57

OpenAI: "companies that want to try switching over to codex two months of free codex usage!" Anthropic: "Hold my token": Let the war begin

译OpenAI: "想尝试切换到Codex的公司可享两个月免费使用权！" Anthropic: "接招吧": 战争开始了

AYi@AYi_AInotes · 5月14日65

说实话，看到 Claude 这条"福利"全网都在转，但绝大多数人没注意到官方话术下面藏的真正信号。打开他们的详细说明，会发现一件挺有意思的事。这笔每月的"专用信用额度"，是按 API 价格计费的。 Pro $20，Max 5x $100，Max 20x $200。听起来还行对吧？但你要是问那些一直在用 claude -p 和 Agent SDK 重度跑自动化的人，他们的反应可能跟你不太一样。以前的订阅，是被严重补贴的。 $200 一个月跑 agent，实际能消耗的 token 价值，大概是 API 标价的 5-10 倍。也就是说，你用 Max 20x 跑重度 agent，相当于薅了 $1000-2000 的羊毛。现在这个补贴被切走了。很多重度用户实测，$200 的 API 信用，半天就烧完。这才是真相—— 轻度用户：白送，还保护了聊天额度，爽。重度用户：账单悄悄涨了 5-6 倍，连骂街都找不到把柄。而且这事不是第一次了。 2026 年 4 月，Anthropic 已经先把 OpenClaw 这类第三方 agent 框架从订阅额度里踢出去了，当时一片骂声。这次直接把自家的 claude -p 和 Agent SDK 一起切走。连续第三次"去补贴化"。时间轴拉出来看就很清楚—— 以前消费订阅和 API 是混在一条线上的，现在他们要把这条线劈成两半。消费订阅，是给人用的。 API，是给机器用的。中间那段灰色地带—— "用订阅价格跑生产级 agent"—— 正在被悄悄抹掉。我觉得这事真的不是什么发福利。是 Anthropic 给 agent 时代画的第一条红线。刚跟 SpaceX 签完 compute deal 把限额提高了一圈，他们也清楚 agent 爆炸式增长会立刻把新增 capacity 吃光。所以必须把"低价无限跑"这条路堵死。那个所有人都默认的"AI 基础设施无限补贴"狂欢期，正在被悄悄画上句号啊。想继续薅便宜的，窗口在快速关闭。想认真做 agent 的，今天就该把账算清楚—— 你的预算思路，得从"订阅"切换到"API"了。

译Anthropic宣布为付费Claude计划提供月度API信用额度，表面是福利，实则是取消对程序化使用的大幅补贴。此前，重度用户通过订阅能以极低成本（如$200消耗价值$1000-$2000的token）运行Claude Agent SDK和claude -p等自动化任务。新政策下，同等预算的信用额度可能半天耗尽，导致重度用户实际成本飙升5-6倍。这是Anthropic继将第三方Agent框架移出订阅后，第三次“去补贴化”行动，旨在明确区分消费订阅（供人使用）与API（供机器使用），终结“用订阅价格跑生产级Agent”的灰色地带。此举标志着AI基础设施无限补贴时代临近尾声，开发者需将预算思路从“订阅”转向“API”计价。

ClaudeDevs@ClaudeDevs · 5月14日60

Claude Code weekly limits are increasing 50%, now through July 13. Live now for all Pro, Max, Team, and seat-based Enterprise users.

译Claude代码周限额正在提升50%，即日起持续至7月13日。现已面向所有Pro、Max、Team及按席位计费的企业用户生效。

Chubby♨️@kimmonismus · 5月14日65

According to recent estimates, Anthropic has already reached $44 billion in ARR, significantly surpassing OpenAI. It's no secret: the big money is in the enterprise sector. That explains Sam's post and OpenAI's two-month free codex access for businesses.

译根据最近的估计，Anthropic 已经达到 440 亿美元的 ARR，显著超过 OpenAI。这不是秘密：大钱在企业部门。这解释了 Sam 的帖子和 OpenAI 为企业提供的两个月免费 Codex 访问。

Chubby♨️@kimmonismus · 5月14日70

Holy: Anthropic just overtook OpenAI in business adoption for the first time. According to new Ramp AI Index data, 34.4% of businesses now use Anthropic, compared to 32.3% using OpenAI. The more interesting part: Anthropic’s adoption quadrupled (!) over the last year. OpenAI’s grew by just 0.3%.

译根据Ramp AI Index最新数据，Anthropic在企业采用率上首次超越OpenAI，使用其服务的企业占比达34.4%，而OpenAI为32.3%。过去一年，Anthropic的采用率激增四倍，而OpenAI仅微增0.3%。这一转折点标志着企业AI市场格局出现显著变化。

Ethan Mollick@emollick · 5月14日41

Really curious when Gemini is going to join the Cowork & Codex race to build a local app that isn’t just for developers. Antigravity hasn’t posted updates to X in a month, and remains very software focused. Meanwhile we see accelerated updates and releases from OpenAI & Anthropic

译很好奇Gemini何时会加入Cowork & Codex的竞赛，开发一款不仅面向开发者的本地应用。Antigravity已经一个月没在X上发布更新，且仍非常专注于软件。与此同时我们看到OpenAI和Anthropic正在加速更新和发布。

ClaudeDevs@ClaudeDevs · 5月14日73

Starting June 15, paid Claude plans can claim a dedicated monthly credit for programmatic usage. The credit covers usage of: - Claude Agent SDK - claude -p - Claude Code GitHub Actions - Third-party apps built on the Agent SDK

译自6月15日起，付费Claude计划可申领专用的月度编程使用额度。该额度涵盖以下用途： - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

🚨 AI News | TestingCatalog@testingcatalog · 5月13日49

Anthropic is testing a new model selector for Claude on mobile, moving it directly to the prompt area. > Bottom navigation tabs are being tested as well. > Connectors Discovery is coming to mobile too, where Claude will suggest the best connector for a given task.

译Anthropic正在移动端测试Claude的新模型选择器，将其直接移至提示区域。 > 底部导航标签页也在测试中。 > Connectors Discovery功能即将登陆移动端，Claude将根据任务推荐最佳连接器。

Ethan Mollick@emollick · 5月13日61

I don't understand the path forward for Mythos releases. Google & OpenAI will have equivalent models, and they are approaching AI cyber risk guardrails differently, so they will presumably just release their versions. How does Anthropic get out of the government approval path?

译我不理解Mythos发布的未来路径。 Google和OpenAI将拥有同等模型，它们正以不同方式处理AI网络风险护栏，因此它们大概只会发布自己的版本。 Anthropic如何摆脱政府审批路径？

Chubby♨️@kimmonismus · 5月13日52

"Holy cow." That's the Telaid CIO watching his Claude bill triple in 30 days for 30 seats. Anthropic was already the priciest frontier lab. Claude Opus runs richer per token than anything OpenAI or Google ships. And now Anthropic has moved enterprise customers from flat fees to usage-based pricing, layered on top of a new tokenizer that consumes more per request. Customers are eating it. ServiceNow burned its annual Anthropic budget in months. Workato had one agent burn a full user's tokens in a single day. NinjaOne is moving 700 engineers off GitHub Copilot onto Claude Code. Anthropic ARR sits at 30B, roughly 3x year-end. Microsoft alone is on pace to spend nearly 500M a year on Claude. Anthropic might be the only AI lab on earth that was already priced at a premium and still has room to push higher. Enterprise AI doesn't bill like Salesforce anymore. It bills like AWS, except AWS never had pricing power like this.

译Anthropic将企业客户从固定费用转向基于使用量的定价模式，同时新的分词器导致单次请求消耗增加，致使客户成本急剧上升。例如，有企业CIO发现30个席位的Claude账单在30天内翻了三倍，ServiceNow则在数月内耗尽了年度预算。尽管其Claude Opus已是定价最高的前沿模型，但Anthropic年化收入仍高达300亿美元，仅微软一家年支出就近5亿美元。这标志着企业AI定价正从Salesforce式的固定模式转向类似AWS的用量计费，但Anthropic展现出前所未有的强势定价权。

阿绎 AYi@AYi_AInotes · 5月13日62

这张图今天刷爆了整个AI圈，所有人都在说，Claude被ChatGPT吊打了，42倍的用户差距，根本不是一个量级之类的。但我想告诉你们，这张图骗了99%的人，数据是真的，但结论完全错了！ ChatGPT有8亿月活， Claude只有1900万，但OpenAI的ARR是240亿美元， Anthropic的ARR已经冲到了200到300亿区间，甚至有泄露数据称，它曾经短暂超过了OpenAI， 42倍的用户差距，换来了不到2倍的收入差距，这或许才是AI行业最残酷的真相，毕竟ChatGPT是大众消费品，学生用它写作业，父母用它问天气， 8亿用户里，大部分都是免费的低价值用户， Claude是专业生产力工具，开发者用它写代码，企业用它跑Agent工作流，它的用户最少，但每一个都愿意掏最多的钱， Claude免费版10个问题就限速，不是它做不好免费体验，是它故意在筛选用户，把不愿意付费的人直接挡在门外， X上很多人都觉得Claude要统治世界，是因为我们活在开发者的回声室里，真实世界里，你爸你妈根本不知道Claude是什么，他们知道ChatGPT更多一些，所以这根本不是谁吊打谁的战争，属于两条完全不同的增长曲线，一条拼大众规模，一条拼付费深度，我觉得现在还远远没到分出胜负的时候，用户多不等于值钱，愿意为深度能力掏钱的人，才是真正的金矿。 #AI #ChatGPT #Claude

译一张对比图显示，ChatGPT月活8亿，Claude仅1900万，但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异：ChatGPT是面向大众的消费品，依赖海量免费用户；而Claude则定位专业生产力工具，通过限速策略筛选高价值付费用户，专注服务开发者与企业客户。这并非简单的胜负之争，而是两条不同的增长曲线——一条拼规模，一条拼付费深度。真正的高价值用户，才是行业的核心金矿。

阿绎 AYi@AYi_AInotes · 5月13日56

Damn，这个AI做的跑步App，真的绝了！有人用Claude vibe code了一个周末，把整个城市变成了真人版抢地盘游戏，你跑过的每一条街道，都会自动变成你的领地，别人跑同一条路，就能直接把你的地盘抢走，传统健身App都是跑完给你看数据，靠打卡 streak 逼你坚持，这个App直接把动机拉到最满，你会凌晨四点爬起来，就为了抢下家楼下那条没人跑的街😁 最吸引我的不是这个App有多好玩，是它从一个想法到能跑的完整demo，只用了一个周末，而且作者根本不是什么专业开发者，以前你有一个好想法，要写Pitch Deck，找团队，烧几十万，花几个月才能做出一个原型，现在一个普通人，用Claude两天就能搞定，做完直接发X收反馈，行就继续，不行就扔，这才是AI coding真正的恐怖之处，它不是让程序员失业，它是让idea的迭代速度，直接变成了周末级，当然这个玩法早就有人做过了， INTVL在2024年就已经上线了一模一样的机制，但这根本不重要，重要的是现在任何人，都能在48小时内克隆任何一个成功的产品，然后加上自己的微创新，健身App最没用的就是更好的数据，最有用的是最烂的动机，把跑步变成原始部落的领地战争，比任何AI教练都管用一万倍，以后再也不会有什么怀才不遇了，你有任何想法，周末做个原型发出来，市场会立刻告诉你答案，这就是2026年做产品的正确姿势， #AI #产品 #健身

译有人利用Claude在一个周末内开发出一款游戏化跑步App，将城市街道变为可争夺的虚拟领地，以强烈的游戏动机取代传统的数据打卡模式。此事的关键并非创意本身（类似产品已存在），而在于AI编程如何将产品原型迭代速度提升至“周末级”。普通人无需专业开发技能与大量资金，即可快速克隆成功产品并加入微创新，随后直接在社交平台获取即时市场反馈。这凸显了在AI时代，动机设计可能比功能优化更为关键，极大地降低了将想法快速验证和产品化的门槛。

宝玉@dotey · 5月13日57

1. Skills 是技能，领域知识，工作流等等，相当于怎么干好一件事的说明书。比如 https://github.com/anthropics/claude-for-legal 仓库里有个 skill 叫 nda-review，在 commercial-legal/skills/ 文件夹里。里面是一份 SKILL.md，写清楚：审 NDA 时先比对哪些条款、按团队 playbook 打绿黄红三档、什么情况要升级、输出格式是 Word 修订模式。它就是一份给 Claude 看的工作手册，本身不干活。 2. Agent 是真正执行任务的主题，除了主要执行的 Agent，通常自定义的 Agent 分两种：Subagent 和 Scheduled agent 2.1 Subagent 是单独派出去干一摊子活的“分身” 举个仓库里的例子：corporate-legal:tabular-review 这个 skill 要对一个数据室里几百份合同做表格化尽调。如果让主对话一份份读，上下文很快爆掉。所以它派 subagent，一个 subagent 负责一份文档，并行跑，最后把结果汇总回主对话。主 Agent 看到的只是最终表格，中间几百次读取的信息被隔离在外。 2.2 Scheduled agent 是定时自己跑的后台任务 renewal-watcher 这个就是。每周自动扫一遍合同库，把 90 天内到期的合同列出来，发到指定 Slack 频道。你不用记日子，它替你盯。 docket-watcher（盯法院案件动态）、reg-feed-watcher（盯监管新规）都是这种。 3. MCP connector 是把外面的数据接进来的连接器 Skill 写得再好，也得有合同可审。仓库里配了 Ironclad（合同库）、DocuSign（已签合同）、iManage（文档管理）几个 MCP connector。 Agent 通过这些 MCP connector 去读公司真实的合同库，而不是让你手动复制粘贴。类似地，诉讼那个 plugin 接的是 Everlaw（电子取证）、CourtListener（联邦法院判决数据库）、Trellis（州法院数据库）。换个执业方向，换一套数据连接器。 4. Plugin 是把上面这些打包到一起的容器 commercial-legal 这个 plugin 文件夹里装着： - 一堆 skill（nda-review、vendor-agreement-review、escalation-flagger……） - 几个 scheduled agent（renewal-watcher、deal-debrief） - 一份 .mcp.json，告诉 Claude 要连哪些外部系统 - 一份 CLAUDE.md 模板，用来记你团队的 playbook 你装上这一个 plugin，整套企业合同审查的能力就一次性配齐了。

译Claude通过四大组件实现自动化任务：Skill是领域工作流指南（如nda-review），指导操作但不执行；Agent是执行主体，Subagent用于并行处理子任务，Scheduled agent则定时自动运行（如合同到期监控）；MCP connector连接外部数据源（如合同库），使Agent能访问真实数据；Plugin将上述组件打包，提供完整功能集（如commercial-legal plugin实现企业合同审查）。这些组件共同协作，使Claude能高效处理复杂工作流。

OpenRouter@OpenRouter · 5月13日65

Opus 4.7 fast mode is live on OpenRouter! Just set your model to `anthropic/claude-opus-4.7-fast` Full Opus 4.7 intelligence with ~2.5x faster throughput

译Opus 4.7 快速模式已在 OpenRouter 上线！只需将您的模型设置为 `anthropic/claude-opus-4.7-fast` 具备完整的 Opus 4.7 智能，吞吐量提升约 2.5 倍

Berryxia.AI@berryxia · 5月13日18

A 社把这玩意会带火么，反正是我买的那家淘宝店已经下架说断货了。非常适合做活动和给中小学生做点编程有意思的东西玩，也不贵200块钱。 DIY 和可玩性也是非常高的~~！ 😄

Berryxia.AI@berryxia · 5月13日61

这不得个榨干CC的最后一滴血啊！何让 Claude 持续工作直到任务完成？ Claude Code 通过几种方式帮助实现这一点，包括最近推出的一个功能：/goal。一行命令即可让它把所有活干完，都不需要别的指令！

译Claude Code推出/goal功能，允许用户通过一行命令让Claude持续工作直至任务完成，无需额外指令。该功能旨在实现开发任务的自动化，减少人工干预，提高工作效率。