// Scaling Laws for Agent Harnesses // If you build agent harnesses, this one is worth your time. (bookmark it) Most harness tuning treats every token and tool call as if volume is all that counts. New research shows that most of it does not. The work introduces Effective Feedback Compute (EFC), a coordinate that counts only the feedback an agent can actually act on. Raw token and tool-call counts explain agent failure at R2 of 0.33 to 0.42. EFC pushes that to 0.99. Why does it matter? Once you budget by useful feedback instead of raw volume, reallocation alone lifts success from 0.27 to 0.90 at the same compute. This also turns harness design from guesswork into something you can predict. Paper: https://arxiv.org/abs/2605.29682 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译新研究提出“有效反馈计算（EFC）”指标，用于优化AI智能体测试框架的设计。传统评估中，原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42，而EFC将此提升至0.99。基于EFC进行资源重分配，可在相同计算量下将智能体成功率从0.27显著提升至0.90，使框架设计从经验猜测变为可预测过程。

meng shao@shao__meng · 5月29日48

Coding Agent 在开发之外能做什么，这个问题昨晚我有了一些新的认识昨天全天我的🪜都有问题，X Google ChatGPT Cursor 都没问题，就是 Codex 一直连接不上。。。就让 Cursor 帮我分析我🪜的问题，以让 Codex 能正常跑起来为目标，几分钟时间，它分析了代理的实现，做了一些测试，帮我改了代理方式，又自己 CLI 调用 Codex 跑通了测试。到这还没完，为了让我在🪜出问题时还能用 Codex，还给我接通了 DeepSeek API (我之前在 Cursor 给过 API Key)，给我做了一键在 Codex 切换为 DeepSeek 的选项。确实太贴心了，我都想给它🧎🏻‍♂️一个了。

译推文作者全天遭遇网络代理（🪜）问题，导致Codex连接失败。他使用Cursor分析代理设置，Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式，随后亲自调用CLI测试Codex以确认修复。为预防未来问题，Cursor还集成了用户此前提供的DeepSeek API密钥，创建了一键切换至DeepSeek的选项，确保了服务可用性。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash now showing up on @ZenMuxAI — nice to see it plugged into more model stacks!

译阶跃星辰（Step Fun）的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构，专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括：400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具，并擅长深度网络与视觉搜索，在τ²-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等，并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

歸藏(guizang.ai)@op7418 · 5月29日49

已经刷到好几个拿藏师傅的 PPT Skills 和小红书配图 Skills 做出千赞内容的小红书的博主了说明这玩意儿确实有用。你们再发的话可以艾特一下我，我还得给你们点点赞

凡人小北@frxiaobei · 5月29日37

workflow -> agent > dynamic workflow 🤔

译工作流 -> 智能体 -> 动态工作流 🤔

ginobefun@hongming731 · 5月29日78

#BestBlogs 早报 05-29 Anthropic 今天同日放出三条重磅，推荐阅读： - 旗舰模型 Claude Opus 4.8 全面升级，代码诚实度提升四倍； - 650 亿美元 H 轮融资让估值逼近万亿美元； - Claude Code 推出动态工作流，单次会话可调度数百个并行子智能体处理超大任务。

译Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著，代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资，估值逼近万亿美元。此外，Claude Code 推出动态工作流，支持在单次会话中调度数百个并行子智能体以处理超大规模任务。

Berryxia.AI@berryxia · 5月29日69

我最近在搭一个AI agent，专门盯一些生物类的最新论文和研究竞品，全球趋势等。以前的做法是每隔几小时就全量抓一次页面，然后把整页内容喂给LLM。 token像流水一样花出去，agent还经常被广告、时间戳这些噪声干扰，效率低得让人头疼。看到今天Firecrawl直接把这个痛点解决了。他们刚上线了/monitor功能。你只用输入一个URL，再用自然语言描述想跟踪的目标，比如“当有ADHD最新课题论文新增xxx时提醒我”。它就会按照你设定的频率去监测，页面一旦有实质变化，就通过webhook推送给你的agent。只摄取真正变动的部分，最多省下90%的LLM token。 diff里清晰列出新增、删除和修改的内容，还带permalink，方便直接分享给团队或者继续交给agent处理。支持API、CLI、MCP或者dashboard初始化，调度可以是5分钟一次、每小时、每天或者自定义。以前我们总觉得agent要保持实时，就得自己扛起监控的重担。现在Firecrawl把“聪明地感知web变化”做成了现成的基础设施，让agent真正把精力放在决策和执行上。

译Firecrawl推出/monitor监控功能，解决AI智能体追踪网页更新时消耗大量LLM token的问题。用户输入URL并用自然语言描述跟踪目标，功能即可按设定频率监测页面。一旦有实质变化，便通过webhook通知智能体，并仅推送变化部分的diff（清晰列出新增、删除和修改），最多可节省90%的LLM token，避免广告等噪声干扰。该功能支持通过API、CLI、MCP或dashboard初始化，调度频率可自定义。

ClaudeDevs@ClaudeDevs · 5月29日68

New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins up a large fleet of coordinated subagents in parallel to take on your most complex tasks. Use the word "workflow" in a prompt to get started.

译Claude Code 新功能（研究预览）：动态工作流。 Claude 会即时编写一个编排脚本，然后并行启动大量协调的子智能体来处理你最复杂的任务。在提示词中使用“workflow”一词即可开始使用。

向阳乔木@vista8 · 5月28日70

Claude Code 上线安全提醒插件，已有 16 万安装，看来很刚需啊！插件通过 pre-tool hook 运行，自动拦截 Write、Edit、MultiEdit 三类操作。覆盖多种类型： ① GitHub Actions 工作流里的命令注入 ② Node.js 的 child_process.exec() 不安全调用 ③ eval() 和 new Function() 的使用 ④ 前端的 XSS 向量，包括 dangerouslySetInnerHTML 和 innerHTML ⑤ Python 的 pickle 反序列化风险 ⑥ Python 的 os.system() 命令注入例如，当用 innerHTML 或 dangerouslySetInnerHTML 时提示 XSS 风险。当编辑 workflow 文件时提示 GitHub Actions 注入风险。警告是 session 级别，相同问题只提醒一次。安装方法，Claude Code中输入 /plugins，Discover中输入security-guidance搜索安装。

ginobefun@hongming731 · 5月28日52

阿里 ATA 这篇文章有点骚，把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用，并利用沙箱实现多用户隔离。

ginobefun@hongming731 · 5月28日62

如果一个 AI Agent 越来越能干，能读文件、跑代码、调工具、连外部服务，产品应该怎么保证它不会闯祸？ Anthropic 这篇文章给了一个很清醒的答案：不要只盯着模型会不会犯错，更要设计清楚它即使犯错，最多能造成多大影响。这就是文中反复提到的「blast radius」，可以理解为失控半径。Agent 的价值来自更强的能力和更大的权限，但风险也来自这里。模型安全、Prompt 约束、内容审核都有用，但它们都是概率性的。真正兜底的，还是环境层的边界，比如沙箱、虚拟机、文件访问范围、网络出口控制、只读权限、短期 token 和审计日志。文章里几个案例很有启发。Claude Code 早期依赖用户审批，但用户会疲劳，93% 的权限提示都会被批准。安全如果变成反复弹窗，最后往往只是训练用户点「允许」。另一个案例更典型，攻击者通过一段看似正常的 prompt，让 Claude 读取本地 AWS 凭据并发到外部地址。因为这是用户亲手粘贴的指令，模型层很难判断异常。能真正挡住它的，是文件不可访问、网络不能外发。还有一个容易忽略的点：白名单不是简单的「允许访问某个域名」，而是在授予这个域名背后一整组能力。允许访问 http://api.anthropic.com，就可能允许上传文件到某个账号。允许接入 GitHub、Notion、Slack、MCP，也不只是接入一个工具，而是接入一组读、写、上传、分享、删除的能力。

译Anthropic 在文章中指出，保障日益强大的 AI Agent 安全，不能仅依赖模型自身的防错能力，更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如，Claude Code 早期因用户疲劳导致93%的权限提示被批准，防线失效；针对通过伪造指令窃取 AWS 凭据的风险，则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调，授予 Agent 接入 GitHub、Slack 或 MCP 等权限，实质是赋予其一整组能力，必须在架构层面谨慎设计。

Alibaba Cloud@alibaba_cloud · 5月28日56

Your AI Agent might be your biggest vulnerability. 🤖🔒 With 40,000+ instances exposed and supply chain risks rising, traditional security isn't enough. Introducing the Alibaba Cloud AI Agent Security Solution—engineered for the Agentic Era. Here are the 7 Best Practices to secure your digital workforce 👇 🔗 https://int.alibabacloud.com/m/1000413551/

译你的AI智能体可能是你最大的安全漏洞。🤖🔒 超过4万个实例暴露在外，供应链风险不断上升，传统安全措施已不够用。隆重推出阿里云AI智能体安全解决方案——专为智能体时代设计。以下是保护你数字劳动力的7项最佳实践 👇 🔗 https://int.alibabacloud.com/m/1000413551/

歸藏(guizang.ai)@op7418 · 5月28日83

http://x.com/i/article/2059811469081141248 # 开源个 Skill｜彻底解决小红、小绿书配图难题前段时间开源了 guizang-ppt-skill，之后我自己用它做内容的时候发现一件事。用它出的网页，单张截下来发到图文平台，反响和数据比我手工排版还很多。我相信你之前也找到过一些这种生成3：4 卡片图的提示词或者 Skill。他们几乎都是一个味道：Tailwind + 大色块 + emoji 堆砌 + 中规中矩的字号层级。看完之后，我大致能理解为什么 AI 出的图文卡片那么容易被一眼识破，它们做的是网页，不是杂志。图文卡片对比 PPT 完全是另一种生物：竖屏、信息流里 1 秒钟决定停不停下、靠图说话而不是靠字。版式不同、节奏不同、读者不同。于是我把它从 PPT Skill 里拆了出来，单独做成了 guizang-social-card-skill （https://github.com/op7418/guizang-social-card-skill）。下面讲讲它好在哪、我为什么愿意在它身上花这么多时间。 ## 二、到底好在哪里 3:4 竖图是图文卡片的主战场。这个 Skill 的绝大部分设计精力都在 3:4 上，字号层级、版式比例、断行规则。全部按 3:4 在手机信息流里被滑过的真实场景校准过。21:9 和 1:1 公众号头图也都支持。下面从图文创作者最关心的事开始讲。 2.1 它分得清你在写什么，然后用对的方式去配图文平台上的内容是分门类的。一篇影评和一篇产品测评，需要的视觉语言完全不一样；一篇旅行散记和一篇职场干货，该用的版式也不是同一回事。但绝大多数 AI 工具不管这件事，你写什么内容它都用同一套模板套出来。结果就是所有人发的卡片都长得像一个公众号的封面流水线。这个 Skill 内置了 11 个常见图文品类的适配规则： - 旅行 / 生活方式：杂志风为主，暖色板，大图压全屏，衬线大标题； - 职场 / 干货 / 商业洞察：网格风为主，深色背景，数据大字报版式； - 影视 / 文化：偏冷色调的杂志风，电影海报式版式，人物特写优先； - 产品测评 / 数码：网格风，对比矩阵，设备框美化截图； - 读书 / 笔记：杂志风，衬线字体，引文居中版式，留白拉满； - 美食 / 探店：高饱和杂志风，俯拍图优先，文字向四角让位；我甚至专门为旅行博主做了地图组件。你可以把店的位置和旅行路线都标注在上面，AI 会自动帮你生成标注。同一段文字喂给它，你说这是影评，它给你电影海报式的卡片；你说这是产品测评，它给你带设备框的对比图。更重要的是，它有明确不接的活： - 追星粉丝向，需要的视觉语言完全是另一脉； - 纯促销硬广，违背它强调内容性的设计哲学； - 超过 12 屏的长教程，图文形态不是长教程的最优载体。碰到这些场景，Skill 会在开头就告诉你"你可能想用别的工具"。这是我故意留的。能力边界比能力本身更能定义一个产品，一个什么都能做的 Skill 最后通常什么都做不好。 2.2 文字怎么压在图上文字压图是图文卡片里最难的一件事，也是最容易暴露"AI 感"的地方。压不好就会出现三种翻车： 1. 文字盖在人脸或产品中心位置上 1. 白字压浅色背景或黑字压深色背景读不清 1. 文字横跨整张图把本来好看的构图毁掉。 Skill 处理这件事用了三步： 1. 识别图里的主体：人脸、产品、文字密集区，版式上自动避开； 1. 算落点区域的色和明度：决定字色、要不要加蒙版、阴影该多深； 1. 字号和断行自适应：根据落点区域大小动态调整字号和换行位置，而不是写死字号让它溢出。这套规则跑下来，卡片的"高级感"基本就立住了。读者看不出"被压上去的字"和"图本来就在那里的字"的区别。 2.3 图片从哪来：这是和市面上 AI 卡片工具最大的差别绝大多数 AI 生成图文卡片的工具，要么让你自己上传图，要么用 emoji 顶替，要么生成一些一眼 AI 的插画。结果就是手工补图很累，或者堆 emoji 显得很假。这个 Skill 默认接入了三个免费可商用图库： - Pexels，支持中文搜索，大众化场景够用； - Unsplash，摄影质感最强，人物、生活、空间类内容首选； - Wallhaven，游戏、摄影、壁纸之类的图都在这里，版权混乱。它会根据正文段落的语义自动派发搜索词、拿回图、按版式裁切到位、避开人脸或主体被切掉。你拿到的是一张配了真实摄影图的卡片，而不是一张色块卡片。而且它也不会死板地去寻找绝对没有版权问题的图。能拿到的图都会告诉你，由你自己来判断要不要放版权不明确的图片。另外，现在各个平台对 AI 带水印的问题管得很严。目前你用的大部分 AI 生图都会有水印，而有水印就会被平台标注，一旦被标注就容易被限流，这是大家非常困扰的一个问题。 2.4 截图也是图：四件套美化我们的很多内容用不了摄影图，得是软件截图、聊天记录、产品界面。 Skill 内置了一套截图美化：加 macOS / iOS 风格的设备外框（browser chrome 或手机边框），用不同材质的背景托住截图，格纸、点阵、暖白或深色，让截图不再白底飘在白底上；同时根据视觉风格自动匹配阴影层次和圆角参数，两套风格各有一套截图配方，前后一致不用手动调。简单一句，你随手截的图，过它一道，看上去就像产品官方做的宣传图。 2.5 AI 生图：克制地用只有前面所有找图渠道都拿不到合适素材时，Skill 才会调用 AI 生图。生图时会强制带上风格约束词，避免出现"一眼 AI 插画"那种平庸视觉。我宁可它少用 AI，也不想它把 AI 用成那个让所有图文卡片长得都像姐妹的元凶。也避免你使用 AI 图片导致内容曝光受影响。 2.6 视觉系统：两套风格 + 28 个版式骨架熟悉我之前的 PPT 的人会觉得眼熟。这两套视觉系统和版式骨架，是从 PPT Skill 那边沿用并重新校准过来的。我就不重复展开，简单说一下它在图文卡片场景下的样子。两套视觉系统： - 杂志风：你在《The New Yorker》和上海译文社的封面上看到的那种排版。大留白，衬线大标题，版式不对称，文字有呼吸感。 - 网格风：Massimo Vignelli 和 Helmut Schmid 瑞士平面设计那一脉。强网格，无衬线，几何感，用色克制但精准。 28 个版式骨架，是我从过去十年看过的杂志、海报、专辑封面、电影海报里挑出来，经得起放大看的那些。 AI 在"自由版面设计"上现在还是平庸的，给它一个被验证过的骨架，它的任务就从"设计"降级成"填充"，成品稳定性立刻上来。 10 套主题色板、固定字体搭配、有限图标库，这些细节就不一一列了。它们的逻辑是同一个：限制不是阻碍，是底线。给一个内容创作者无限的颜色选择，他更容易做出难看的东西；给他 10 套被验证过的色板，他做出能看的东西的概率会接近 100%。 ## 三、为什么要这么做 3.1 设计角度：杂志感非常有效为什么走杂志风和网格风，而不是更"现代"的卡片设计? 图文卡片的本质，和印刷海报、画报、专辑封面是同一种东西。用一张静态图，在 1 秒钟里说服一个陌生人停下来。杂志和海报在过去一百年已经把这件事研究透了。网页设计语言是为可滚动、可交互的场景做的，搬到一张静态图上，会显得用力过猛、信息平淡。所以这个 Skill 在视觉决策上的所有"为什么"： - 为什么大留白?留白是杂志告诉你"重点在这里"的方式； - 为什么衬线字体优先?衬线字体在大字号上有印刷品的重量感； - 为什么版式不对称?不对称会制造视觉节奏，让眼睛知道先看哪； - 为什么用色克制?社交信息流里，克制的色板反而比饱和度高的更显眼，它和周围所有"喊得很大声"的卡片不一样。这些决策听起来都很"虚"，但它们落到代码里全是具体的常量。字号阶比例、留白比例、网格列数、对比度阈值、断行规则。这些常量才是这个 Skill 真正的护城河。 3.2 产品角度：它是一个产品，不是一段 Prompt 做了这么多 Skill 之后，我对"Skill 这种东西到底是什么"形成了一个判断： Skill 这种东西，本质上是一个小产品。落到这个项目里：我给它写了 PRODUCT.md，讲清楚它解决什么问题、给谁用、不做什么。是为了逼自己把"我到底在做什么"想清楚。我自己说不清的时候，这个 Skill 就不该被发布。我给它打版本号(v0.5 / v0.9 / v0.10 / v0.12)，每一版都有 CHANGELOG。我能告诉你为什么 v0.10 是一次失败的尝试，以及 v0.12 怎么把它修回来的。我给它写 HANDOVER.md，讲清楚交付物长什么样、能力边界在哪、什么场景该用别的工具。我希望任何人接手它，都能在 30 分钟内对它有完整理解。我会提前列出它不擅长的事，省得用户试错三次才发现。为什么要费这么大功夫? 因为 Skill 生态最大的问题，是绝大多数 Skill 满足于"我能做一个"，很少有人在追求"把这件事做到极致"。一个 Skill 应该是能站起来的小产品。Prompt 十分钟会被同行复制走，产品不会。这件事的反面是，如果我连自己 Skill 的能力边界都说不清，我就没资格让别人把工作流交给它。 ## 写在最后这个 Skill 让我反过来理解了我的 PPT Skill 真正做对的是什么。真正做对的，是它从一开始就被当成产品对待。模板多、规则细、颜色好看，都是这件事的副产品。以后再有人问我 Skill 是什么，我会用两句话回答： Skill 是一个产品。判断一个 Skill 好不好，看它有没有被它的作者偏爱过。如果你也在做图文内容，希望它能帮你省掉那些被排版毁掉的好选题。如果你也在做 Skill，希望它让你重新想一想，你做的那个东西，值不值得有 PRODUCT.md。 GitHub： https://github.com/op7418/guizang-social-card-skill 跟你的 Codex、小龙虾、ClaudeCode、Workbuddy 说：帮我安装这个 Skill：https://github.com/op7418/guizang-social-card-skill

译作者开源了 guizang-social-card-skill，这是一个专为小红书、微信公众号等图文平台设计的竖屏（3:4）卡片生成工具。它针对图文内容特点进行了视觉校准，内置了11个图文品类的适配规则，能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图；默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图，以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界（如不做追星粉丝向、纯促销硬广）和迭代记录的产品化技能。

向阳乔木@vista8 · 5月28日58

好久没听到MCP了，据说新的版本7.28号发布。有几个Feature还挺关键： ① 服务器能下发 HTML 界面让用户交互了 ② 长任务有了正式的管理机制 ③ 授权更严，安全性更好  现在你还在用的刚需 MCP 是啥？我感觉几乎没有了

译MCP协议新版本将于7月28日发布，包含几个关键特性：服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制，以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么，并表示自己感觉几乎没有了。

ginobefun@hongming731 · 5月28日66

http://x.com/i/article/2059794481965408257 # BestBlogs 早报 · 05-28｜Claude Code 路径、分布式 RL 训练、SaaSpocalypse 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-28 今日精选聚焦 AI 编程工具的「引擎室」：Anthropic 设计负责人 Megan 亲述 Claude Code 如何从 12 人 CLI 实验起步，在一年内拿下 51% 市场份额；Cursor 与 Fireworks 公开 Composer 2 分布式 RL 训练内幕，揭示从应用包装层到自训练基础模型的工程路径。与此同时，一篇关于「SaaSpocalypse」的深度文章正面拆解：当 Agent 直接调 API、绕过 SaaS 界面层，谁会最先倒下，Software 3.0 时代工程师的角色又将如何重写。 ## 导语 2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步——它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。速览板块还覆盖了 ESMFold2 在蛋白质预测领域的「苦涩教训」时刻、Lyft 用 LangGraph 把 Agent 开发周期从半年压缩到数周的工程实践、Vibe Coding 遭遇安全清算的真实案例，以及 Airtable、Fireworks 的基础设施故事。 ## 精讲一：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 Claude Code 的起点比大多数人想象的低得多。2024 年，Anthropic 内部一个 12 人团队决定试验一个想法：把 Claude 接入命令行，直接操作文件系统。第一个原型配置需要整整一个小时，距离所谓「产品」还差得很远。但早期内部演示视频在 Slack 流传后，团队意识到方向是对的。接下来三个月，他们专注于三件事：打磨用户体验、消灭平台 Bug、大量内部使用积累信心。这种「先内部高强度使用，再对外发布」的节奏，成为 Claude Code 后续迭代的基本范式。什么让 Claude Code 跑得这么快？ Anthropic 设计负责人 Megan 在 Product School 的分享里，把这归结为三个机制：第一是流动 Pod 结构。传统产品开发里，设计师做设计、工程师写代码、PM 写 PRD——边界清晰但也僵硬。Claude Code 团队打破了这层边界：设计师会直接把代码推到生产环境，工程师主动做用户体验决策。Pod 的规模和构成随功能需求弹性调整，通常是 3 至 5 人，没有固定比例。这种跨职能的流动性，在 AI 加速迭代的环境下释放了显著的执行弹性。第二是把质量关口移到运行时。当 AI 让代码生成速度提升 10 倍，传统的 PRD、静态 Mockup 等质量控制环节就成了瓶颈。Anthropic 的解法是把验收标准前移到真实运行行为：团队内部高频部署原型，监控实际使用模式，用运行时数据而非文档勾选来决定是否推进。这个方法在 AI 原生组织里有深刻意义：它不是「更快写代码」，而是「把反馈回路压缩到极致」。第三是Bottom-up 企业采用。Claude Code 没有走自上而下的销售路线，而是从工程师个人使用开始，自然扩散到团队，再渗透到组织层面。这种采用曲线在金融基础设施、零售等高度监管行业也同样奏效——先赢得工程师，再赢得决策者。度量体系的迁移 Megan 特别强调了一个度量迁移：从 Token 用量转向用户留存与管道营收。这看起来是小事，背后却是产品哲学的转变——衡量 AI 工具价值的标准，从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。管理层须亲自上手、持续操刀 Repo，不是作秀，是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值：领导者的直接参与，是维持迭代弹性的结构性保障，而不仅仅是传递信号。为什么值得深读这篇内容不是产品方法论的泛泛总结，而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用——这三个机制彼此咬合，缺一不可。如果你在思考 AI 原生团队该怎么运转，这是目前能找到的最具体的参照之一。值得额外关注的是 Anthropic 的女性领导力比例：CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实，而是组织文化的折射——一个真正重视多元视角的组织，往往在打破固有边界（比如「设计师不写代码」）这件事上也更有行动力。阅读建议：结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践，Composer 2 是模型训练侧的 AI 原生实践，两者共同勾勒出「AI 原生」的两种形态。阅读链接：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 ## 精讲二：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路：从头训练一个专门为软件工程优化的模型，并且为此搭建了一套异步分布式 RL 基础设施。为什么要自己训模型？ Federico（Cursor 研究负责人）给出了一个直观的类比：LLM 的参数空间就像一块存储介质，位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力；Cursor 的做法是把所有位都集中到软件工程这个窄域，用专注换效率。结果是：更小、更低延迟的模型，在代码编辑任务上超过了比它大得多的通用模型（如 GPT-4 Opus），运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例——在足够窄的领域，专注的数据维度比纯粹的规模更有效。 Composer 2 的双轴训练路径 Composer 2 的训练分两个阶段：第一阶段是持续预训练，以 1 万亿参数 MoE 模型 Kimi 2.5（30B 活跃参数）为基础，大规模运行代码和 web token 的下一个 token 预测，拓宽模型的基础分布，编码基础库知识和工程模式。第二阶段是大规模强化学习。模型进入主动 RL 循环，在 Cursor 环境框架内执行工具调用、获得奖励信号，逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同，RL 阶段的目标是「学会在工具和结果中导航」。异步流水线：让 GPU 全程满负荷标准 RL 管线的一个固有问题是计算空转：推理阶段训练器空转，权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线：推理 Rollout 和权重更新同步进行，GPU 全程满负荷，消除了昂贵计算资源的空转损耗。三个工程难题与解法除了异步流水线，团队还公开了三个关键工程决策： - Delta 权重压缩：在分布式训练中，每次权重更新都需要在全球节点同步，数据量巨大。Delta 权重压缩只传输权重的变化量，把全球同步流量降低了约 20 倍。 - Router Replay Tracking：稀疏 MoE 架构（Sparse Mixture of Experts）的一个棘手问题是数值漂移——不同专家路由的使用频率不均，导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程，保持数值对齐。 - 自摘要上下文压缩：编码智能体在真实工作中会产生超长轨迹，百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力，而不是外挂规则，让智能体在长轨迹中保持推理连贯性。一个值得思考的更大问题 Cursor 的路径揭示了一个范式：当模型训练成本不再是天文数字，专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力，垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证——ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越，只是在生物信息领域，通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。为什么值得深读这篇不是概念介绍，而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层，这篇帮你理解专有模型训练的真实成本和收益；如果你在做 ML 基础设施，异步流水线和 Delta 压缩是可直接参考的工程方案。结合精讲三看：Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」，而精讲三在问的是「工程师的工作本身会被如何改变」。阅读链接：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 ## 精讲三：2026：软件的末日、工程师的陨落、平庸的消失 2026 年 1 月，美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅：标普北美软件指数下跌 15%。不是因为业绩崩塌，而是因为华尔街意识到一件事——SaaS 的护城河正在被 AI Agent 从根部挖空。华尔街给这场抛售起了个名字：SaaSpocalypse，软件末日。被做空的是哪一层？过去二十年，SaaS 的商业逻辑建立在一个前提上：把企业功能打包成操作界面，按席位收取月费。界面即产品，界面即护城河。员工用久了形成肌肉记忆，替换成本极高，这是 SaaS 估值飞涨的核心驱动力。 AI Agent 打破的，正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子，语气平静、但意味深长：「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360，无需浏览器。」这家靠界面起家的商业帝国，亲手把自己的界面变成了可选项。逻辑链条是这样的：Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层，壁垒被 AI 复制。 📷 但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分：AI 大幅降低了重建一套系统前 80% 的成本，而剩余的 20%——特殊事项、审批流程、合规要求——仍然是「可用原型」与「真正替代品」之间的分水岭。被集中做空的，是价值落在「前 80%」的中间层：以数据分发为核心的 Thomson Reuters（单日暴跌 16%）、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征：壁垒恰好集中在最容易被 AI 复制的区域。而管理财务账目的后台系统、涉及合规审计的数据平台，则属于那难以逾越的「20%」。ERP 的迁移，a16z 把它比作「病人在跑马拉松时做开胸手术」。软件会变少吗？答案是杰文斯悖论直觉上，AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事：蒸汽机效率越高，英国消耗的煤炭反而越多——效率提升让资源变便宜，催生了大批原本不存在的使用场景，导致总消耗净增长。这就是杰文斯悖论。 Token 正走同一条路。GPT-4 问世时，每百万 Token 调用成本 37.5 美元；两年后，GPT-5 High 降至 3.63 美元，性能却突破人类博士水平。成本下降超过 99%，但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单：过去 30 天，个人级别消耗 6030 亿 Token，单月花费超过 130 万美元。每一次 Token 价格的下跌，都不只是让现有软件运行得更便宜，而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用；OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实——这在两年前根本不存在。工程师的角色迁移：从写代码到 Software 3.0 文章的结尾是最值得停下来想一想的部分：工程师的角色正从「写代码」迁移向 Software 3.0——设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作，他说：「我花了五秒钟把所有情绪过了一遍，然后就明白，好吧，我的职业生涯完了。」平庸的产出正在加速消失，但这不意味着工程师集体消失——而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师，将会更稀缺、更有价值。协议层：MCP 正在成为新的 USB 接口文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP（Model Context Protocol）正在成为 Agent 时代的 USB 接口——一次接入，所有支持 MCP 的 AI（Claude、ChatGPT、Cursor、Copilot 等）均可调用。在 MCP 之前，每让 AI 接入一个新工具都要单独写一套适配代码；MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后，必须出现的基础管道。与今日其他内容的关联这篇文章的论述与精讲一、二构成了一个完整的三角：Claude Code（产品侧 AI 原生）+ Composer 2（训练侧 AI 原生）+ SaaSpocalypse（产业侧 AI 冲击）。三篇合在一起，描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起，也都是这场变革在不同应用层面的具体落地——当你把它们放在这篇文章的框架里，会看到一幅更清晰的全景图。阅读建议：如果你是工程师，重点看「工程师角色迁移」和「Software 3.0」部分；如果你在做产品或投资，重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长，但论证密度高，值得完整阅读。阅读链接：2026：软件的末日、工程师的陨落、平庸的消失 ## 速览 ESMFold2：蛋白质领域的「苦涩教训」 BioHub 团队推出开源蛋白质结构预测模型 ESMFold2，在多样化数据上扩展简单的 BERT 类 Transformer，在蛋白质相互作用（尤其是抗体预测）方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻——通用架构加海量数据，再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照：Cursor 走专用模型路线赢，但生物信息领域是通用路线赢，背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索，对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文 Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周 Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台，让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent，无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统：一个元 Agent 作为有状态路由器，用 Command(goto=...) 把请求分发给专用子 Agent，每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周——这和精讲三「软件液化」的论断高度呼应：当非技术人员能直接配置 Agent，软件开发的边界正在重新定义。阅读原文 VibeSec 的清算时刻 Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时，遭遇了两次险情：AI 建议把存储桶设为公开访问（会泄露敏感品牌资产），以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论：Vibe Coding 加速了原型到产品的路径，但 AI 生成的代码需要确定性的护栏，而不仅仅是更好的提示词，才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文 Airtable 如何为 AI 功能构建语义搜索层 Airtable 有一个关键数据观察：任何一周内，75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策——选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快，冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事，而是「一个数据特性如何决定了一整套工程决策链」的案例，对有类似冷热数据分布的团队有直接参考价值。阅读原文万字入门 AI Infra：大模型的数学与优化逻辑从 RMSNorm、Softmax、Causal Mask 到 Sampling，逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断：AI Infra 优化的本质是用数学上的等价变换，或对精度的适度妥协，换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发，解释 FP16 数值上限 65504 为何会成为工程约束，再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字，覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者，也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文别再盯着 AI Agent 干活：构建运行时上下文引擎 Brandon Walsenuk 认为，可靠的自主编码 Agent 需要「运行时上下文引擎」，而不只是更长的提示词或更多工具权限。他指出了三个常见误区：朴素 RAG 因「搜索满足感」效应导致信息遗漏（Agent 找到第一个看似匹配的答案后就停止探索，错过更完整的技术现实）；单纯连接 MCP 管道解决不了组织知识缺失；给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突，这是一个系统设计问题，而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看，两者都在解决同一个问题：如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文 AI 基础设施新晋独角兽：Fireworks、Baseten、OpenRouter Fireworks 和 Baseten 双双跻身独角兽，OpenRouter 宣布 $113M B 轮，过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点：基础设施越高效，消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起，以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是，Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方——同一家公司在一天内以两种身份出现在今天的早报里，这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文 ## 补充阅读 CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段，弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15,000+ 客户的规模背后，是一套「先规划、再生成」的编排逻辑——规划阶段帮助 Agent 在行动之前理解变更的意图和范围，减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补：一个说 Vibe Coding 的安全风险，一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI，把从业者的修正转化为结构化评估目标，让 Agent 自主改进——准确率达 97%，吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环，让改进不再依赖工程师手动推进：从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文使用 LLM 保护源代码安全 Anthropic 六步循环法：威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化，瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日，Anthropic 在开源软件中已披露 1,596 个漏洞，其中仅 97 个完成修补——这个数字本身就是现状的真实写照：AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文 Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品，用 ETCLOVG 七层框架（执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理）系统梳理 Agent Harness 工程，覆盖 170+ 开源项目。核心判断：Agent 在长任务、真工具、真实环境中失败，往往不是模型不够聪明，而是系统没把它管好。只改工程外壳不改模型，有研究在 coding benchmark 上实现了最高 10 倍提升；固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件，在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文淘天集团「数字 SRE」：AI 主导代码质量治理从 AI 辅助开发到 AI 主导开发的四阶段演进，淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题，开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例：AI 负责语法级修复这类有明确规则的 Blocker，人类保留关键审核节点——这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文 DiT 残差流的收敛瓶颈与 DAR 解法南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing（DAR），用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加，实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题：PreNorm dilution（历史累积量越来越大，新层想改变表示须对抗膨胀的主干）、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文 ## 今日阅读路径时间有限，推荐优先读这三篇： 1. 2026：软件的末日、工程师的陨落、平庸的消失（精讲三）——理解当前产业变局的整体框架，SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」，先读这篇，其他内容会更有定位感。 1. Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径（精讲一）——具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用，三个机制对任何在思考 AI 原生组织的人都有直接参考价值。 1. VibeSec 的清算时刻（速览）——Vibe Coding 安全风险的真实案例，15 分钟读完，能帮你在下一个 AI 代码项目里提前避坑。时间充裕的扩展路径： - 精讲二（Composer 2 训练工程）+ 速览「Lyft LangGraph 平台」——从模型训练到 Agent 平台，构建对 AI 基础设施的完整认知。 - 补充阅读「Agent Harness Engineering 综述」——为精讲二和速览「运行时上下文引擎」提供理论框架支撑。

译Claude Code 首年营收 25 亿美元，占据编程工具 51% 市场份额，其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作，基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2，其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时，“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时，传统软件中间层正面临冲击。

Berryxia.AI@berryxia · 5月28日69

OpenAI终于把企业最头疼的安全和合规墙彻底推倒了。他们今天直接推出Private MCP Tunnels：你的团队可以把MCP服务器完全留在内网，而ChatGPT、Codex和Responses API只需要通过单向HTTPS outbound就能安全连接，完全不用打开任何入站端口，也不用把永久API Key散得到处都是。同时还上了Workload Identity Federation（云身份联邦）和大幅增强的Admin API，支持支出预警、模型白名单、数据保留策略、托管工具控制等企业级管理能力。这不是小修小补，这是OpenAI把AI平台从“开发者玩具”直接升级成了真正的企业级基础设施。以前大公司想大规模用AI，最卡的从来不是模型能力，就是要“数据不能出墙”“安全审查半年走不完”。现在这些障碍被一次性干掉。企业采用AI的最后一公里，终于被OpenAI打通了。

译OpenAI推出Private MCP Tunnels，允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接，无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API，提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍，将OpenAI平台升级为企业级基础设施。

Greg Brockman@gdb · 5月28日71

bring-your-own MCP servers:

译自带MCP服务器：你的团队可以将MCP服务器保留在内部网络中，同时ChatGPT、Codex和Responses API通过仅出站的HTTPS进行连接。 🔗 https://developers.openai.com/api/docs/guides/secure-mcp-tunnels

Greg Brockman@gdb · 5月28日62

Codex for parallel browser-using subagents:

译Codex子智能体并行操控浏览器：一个提示词同时生成七个浏览器会话并行运行。航班、汽车、Airbnb、徒步、表单、结账页面。虽然仍显粗糙，但未来感十足。

小互@xiaohu · 5月28日59

OpenAI推出一个Secure MCP Tunnel（安全 MCP 隧道）的功能可以让ChatGPT和Codex 调用公司内网里的 MCP 服务器同时防止数据泄露... 具体原理： OpenAI 的解法：反过来，不让外面进来，让里面主动出去具体怎么跑通的： 1、你在公司内网装一个叫 tunnel-client 的小程序，它能直接连到你的内部 MCP 服务器 2、3、这个小程序主动向 OpenAI 拉一条加密通道，走的是普通 HTTPS 出站 4、ChatGPT 想调用你的 MCP 服务器时，把请求扔到 OpenAI 这头的隧道入口 5、内网那头的 tunnel-client 一直"挂着"等活儿，看到有请求就转给本地 MCP 服务器 6、拿到结果，沿原路送回去这是 OpenAI 在补企业级 MCP 的最后一公里。MCP 协议本身解决的是"LLM 怎么调用工具"，但一直没解决"怎么调用一个公司不愿意公开的工具"。Secure MCP Tunnel 把这层补齐了，企业里那些原本因为安全顾虑没法接入 ChatGPT 的内部系统，现在有了官方路径。技术思路上类似 ngrok、Cloudflare Tunnel 那种"反向隧道"，只是 OpenAI 把它做成了原生功能，跟组织和 workspace 的权限体系打通。

译OpenAI 为 ChatGPT 和 Codex 推出 Secure MCP Tunnel 功能，允许它们安全调用部署在企业内网的 MCP 服务器，核心目标是防止数据泄露。其原理是：企业在内网部署 tunnel-client 程序，该程序主动向 OpenAI 建立一条加密的 HTTPS 出站通道。当模型需要调用内部 MCP 服务时，请求通过此隧道安全转发至内网客户端，再由客户端分发给本地服务器，结果沿原路返回。此举补全了 MCP 协议在安全访问私有工具方面的缺口，是 OpenAI 完善企业级应用的关键一步，技术思路类似反向隧道，但作为原生功能与组织权限体系打通。

OpenAI Developers@OpenAIDevs · 5月28日70

Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the Responses API connect through outbound-only HTTPS. 🔗 https://developers.openai.com/api/docs/guides/secure-mcp-tunnels

译您的团队可以在内部网络中保留MCP服务器，同时ChatGPT、Codex和Responses API通过仅出站HTTPS进行连接。

elvis@omarsar0 · 5月27日47

For future-proof, build AI that's composable. Regardless of what you use, all these should be composable, iterative, and customizable: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) The compounding effects are insane.

译为了面向未来，构建可组合的AI。无论你使用什么，所有这些都应该是可组合、可迭代和可定制的： - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) 复利效应是惊人的。

OpenAI Developers@OpenAIDevs · 5月27日67

⚙️ Behind the build of self-improving tax agents with Codex We co-built Tax AI with @ThriveHoldings around tax prep workflows so when reviewers fix any errors, Codex can trace the failure, improve the system, and test the change before it ships. https://openai.com/index/building-self-improving-tax-agents-with-codex

译⚙️ 使用 Codex 构建自我改进税务智能体的幕后我们与 @ThriveHoldings 共同打造了 Tax AI，围绕税务准备流程进行协作。这样当审核员修正任何错误时，Codex 可以追溯故障、改进系统，并在部署前测试更改。 https://openai.com/index/building-self-improving-tax-agents-with-codex

Runway@runwayml · 5月27日73

Introducing Runway MCP. Now you can connect Runway directly into Claude, ChatGPT, Cursor, Replit and more. Generate polished images and videos with state-of-the-art models, like Gen-4.5, Seedance 2.0, GPT Images 2.0, Kling and more. Right from where you're already working. Connect the MCP to your agent in seconds at the link below.

译推出 Runway MCP。现在你可以将 Runway 直接连接到 Claude、ChatGPT、Cursor、Replit 等平台。使用最先进的模型（如 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等）生成精美的图像和视频，直接在你当前的工作环境中完成。通过下方链接，几秒钟内即可将 MCP 连接到你的智能体。

向阳乔木@vista8 · 5月27日61

开发好Chrome插件，最琐碎的是上架步骤。现在只需浏览器登录Chrome应用商店后台，给Codex下个目标：上架这个插件。它会调用 Computer Use和Chrome ，鼠标模拟人操作填写资料，缺Logo和截图，它自己会调用工具生成。缺隐私协议，自己写一套放Github引用，全程你不需要做任何事情。成本：13分钟，65万Token 当下觉得OpenAI的产品力是强过Anthropic的，配套的开发工具太丰富了，尤其Computer Use、Browser Use相当加分。但写作方面，OpenAI的GPT现在还是不如Claude。

译推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器，自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟，消耗65万Token。作者同时表达了对OpenAI产品力的看法，认为其配套开发工具丰富，但指出GPT在写作方面目前仍不如Claude。

Berryxia.AI@berryxia · 5月27日74

一个Anthropic黑客松冠军团队，只用了Claude Code花8小时就做出了一个产品拿下冠军，然后直接把背后的完整AI编程工作台开源了项目叫ECC（Everything Claude Code），作者Affaan Mustafa和队友把整个工作流打包成一个仓库它不是一个提示词合集，而是包含61个Agent、246个Skills、76个预设命令，还带规则、Hook、安全扫描和MCP配置的完整系统如果你每天重度使用Claude Code、Cursor、Codex，这个项目值得你立刻翻一遍它展示的不是“怎么问AI”，而是“怎么给AI搭一套能持续干活的工作台” 故事就藏在Anthropic x Forum Ventures黑客松里 Affaan Mustafa和队友在纽约赛场，用Claude Code纯手搭，只花8小时就做出了http://zenith.chat，一举拿下冠军，奖品是1.5万美元API credits 赛后他们没有把配置藏着，而是把过去十几个月每天用Claude Code积累的全部精华整理成ECC仓库里面有61个专门Agent负责不同场景，246个Skills覆盖从代码审查到安全扫描再到记忆持久化，76个预设命令一键触发还内置了Hook系统、规则引擎、安全扫描器、持续学习机制，支持Claude Code、Cursor、Codex、OpenCode等多平台 Big Tech的AI编程工具永远藏着掖着，把你锁在他们的闭源生态里 Affaan却把一切开源，让任何独立开发者或小团队都能直接clone一套工业级AI编程工作台你现在就可以试直接去GitHub搜affaan-m/everything-claude-code git clone https://github.com/affaan-m/everything-claude-code 按照readme一键安装，马上就能拥有61个Agent+246个Skills的完整 harness 整个框架100%开源，所有Skills、Agents、Hooks、规则全在仓库里，每天还在更新 Big Tech还在卷谁的AI coding工具更封闭更贵这个黑客松冠军却用一个开源仓库告诉你：真正厉害的工作台，是能让AI自己持续干活的系统

译Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后，他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令，并配备规则引擎、Hook系统、安全扫描器和MCP配置，支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架，而非简单的提示词集合，已完全开源在GitHub。

Greg Brockman@gdb · 5月27日54

Codex for analyzing and organizing your Slack:

译Codex 用于分析和整理你的 Slack： [引用 @derrickcchoi]：周末，我让 Codex 分析我的 Slack 消息历史，并推荐一种更好的方式来组织我日益增多的频道。然后我让 Codex 在我处理其他事情时，通过 computer use 重新组织和分类我的 Slack 侧边栏。我现在为此设置了一个自动化流程！

Chubby♨️@kimmonismus · 5月26日54

Uber burned $3.4B in AI budget in 4 months. Microsoft is cancelling Claude Code licenses company-wide. The root cause is the same: no routing layer between the request and the model. Build Your Own Router lets you match every request to the right model based on your own benchmarks. Not every prompt needs a frontier model. This is where production AI is heading. #mergegateway, @shensi

译Uber在4个月内消耗34亿美元AI预算，微软正全公司范围取消Claude Code许可证，根本原因在于请求与模型之间缺乏路由层。Merge Gateway推出的“构建你自己的路由器”功能，允许团队根据自定义基准测试，将每个请求路由到最适合的模型。正如引用推文所指出的，团队常追逐所谓“最佳”新模型并频繁重新集成，但根本不存在通用的“最佳”模型，只有适合特定产品、用户和用例的模型。该功能由@merge_api提供，前200位评论用户可获得100美元额度。

Berryxia.AI@berryxia · 5月26日27

这个”悄悄话“小巧思的设计，我喜欢。刚刚老薛说你的小跟班Agent怎么罢工了，因为它在我们群里@他们两结果都不说话。我是专门做了个测试就是对他们开启悄悄话模式，也是在群里发出去的。但是，其他用户看不到😄，仅我可见，我们还可以在群里对话聊天，但是其他人看不到哈。有点意思~

译推文介绍了“悄悄话”功能：在群聊中发送的内容仅自己可见，但可以与他人正常对话交流，其他用户无法看到内容。此外，引用推文补充信息显示，相关服务（如 Bloome）的 iOS 客户端已可在美区下载使用，体验流畅。

Berryxia.AI@berryxia · 5月26日59

Grok Build 目前已面向全体 SuperGrok 及 X Premium+ 用户开放Beta版本。可使用计划模式（Plan Mode）、通过Imagine功能生成图像与视频，同时借助命令行工具（CLI）搭建自动化程序或编排器。大家知道可以做什么了吗？🤔😄

小互@xiaohu · 5月26日63

Xai的 CLI：Grok Build 开启测试了对标 Claude Code、Codex SuperGrok 和 X Premium+ 用户可以直接安装并授权账户即可使用，使用订阅的用量安装：curl -fsSL https://x.ai/cli/install.sh | bash 启动：grok Grok Build 基本功能清单：核心模式 Plan 模式：先出方案、不直接改文件，可停下来反问 Always-approve 模式：跳过每次工具调用的确认提示 Shift+Tab 切换会话模式编程能力读代码、写代码、改代码、修 bug、跑测试子 Agent 并行：拆分大任务，多个子 Agent 同时干用 @文件名直接定位某个文件讨论会话管理 /new 开新会话、/load 续上旧会话、/rename 改名 /share 生成链接分享会话 /context 查看上下文用量、/compact 压缩历史 /btw 不打断当前任务，随口问个别的扩展能力 MCP：接 Linear、Sentry、Postgres、浏览器等外部工具 Skills：自定义技能，装上后变成斜杠命令调用 Plugins、Hooks 支持多模态 /imagine 文字生成图片 /imagine-video 文字生成视频

译xAI 正式推出命令行工具 Grok Build 并开启测试，直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放，核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务，以及完整的会话管理。此外，它通过 MCP 集成外部工具，支持自定义技能与插件，并具备多模态能力，可通过命令生成图片与视频。用户可通过指定命令安装启动。

DogeDesigner@cb_doge · 5月26日75

xAI just released Grok Build Beta for SuperGrok and 𝕏 Premium+ users. A powerful new coding agent + CLI built for complex software work. What it can do: • Plan, build, test, and deploy from the terminal • Create structured plans before writing code • Use subagents to run research, testing, and reviews in parallel • Turn workflows into reusable skills and slash commands • Connect with MCP servers like Linear, Sentry, Grafana, and more • Search, edit, and refactor across large codebases • Run builds and tests with live terminal streaming • Review code line by line before opening a PR • Stage, commit, push, and manage branches • Use memory to persist decisions and context across sessions • Run headless in CI/CD pipelines • Execute code in sandboxed environments

译xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具，专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程，支持在编码前制定结构化计划，并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令，可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力，支持以无头模式在CI/CD管道中运行，并能在沙盒环境中执行代码。

Berryxia.AI@berryxia · 5月26日68

这个团队的研究也是有点反常识，对于LLM的研究调度也是有点不一样的研究。一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员它叫Onyx GitHub上已经完全开源你现在就能跑故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。结果呢？调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。 Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论这一刀直接逼着调节器做真正的“高阶战略思考” 整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。三阶段流水线超级清晰 Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制 Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT 更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。你今晚就可以试直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。整个框架100%开源架构细节pipeline代码实验数据全在仓库里 Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。 https://x.com/i/status/2058837753954238510

译开源深度研究系统Onyx在DeepResearch Bench上排名第一，超越了Claude和ChatGPT。其核心设计十分反直觉：顶层调度器（orchestrator）被完全剥夺了网络搜索和URL访问权限，仅负责任务分解与评估。这种约束迫使调度器专注于高阶战略思考，避免了传统系统中调度器因能搜索而过早给出浅层答案的缺陷。Onyx采用两层架构和三阶段流水线，并完全开源，支持接入企业内部数据源。

歸藏(guizang.ai)@op7418 · 5月25日40

不吵架了，预告一下下一个 Skill 项目基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面也可以基于文档生成小绿书和小红书图文所需的 3:4 组图会自动处理你的截图素材，自动进行匹配

译推文预告了一个基于PPT技能的新项目，该技能能够一键生成适用于微信公众号和小红书平台的封面图。同时，它也能根据文档内容，自动生成符合小红书图文所需的3:4比例的多张图片。该技能的一个核心特点是自动化处理能力，可以自动处理用户提供的截图素材并进行内容匹配。

AYi@AYi_AInotes · 5月25日50

兄弟们吃瓜的同时记得学习呀，主线任务不能丢不能丢！再分享一个AI自动化的案例，这个老哥用Claude+MCP+N8N搭了个全自动晨间研究 Agent，然后每天醒来Obsidian里已经躺着一份5分钟晨报，每天45分钟刷信息的时间砍到了5分钟，这个大家感兴趣的话，我验证跑通了出个教程，反正curcor送的10000$额度用不完哈哈哈哈 #AI #Claude #MCP #N8N #效率

译有开发者利用 Claude、MCP 与 N8N 构建了一个全自动晨间研究智能体。该智能体每日自动运行，将产出的 5 分钟晨报直接存入 Obsidian 笔记库，从而将用户原本需要 45 分钟的每日信息筛选时间压缩至 5 分钟，节省了 87% 的时间。发布者表示，如果感兴趣可以制作教程，并顺便提到 Cursor 提供的 $10,000 额度还远未用完。

Berryxia.AI@berryxia · 5月25日43

卧槽… 兄弟们我真的是后知后觉～今天还屁颠屁颠跑到Bloome 去问什么时候可以支持iOS端啊？结果告诉我说美区已经可以使用了… 因为我一直以为没有在iOS 添加到主屏幕在用，忍受着… 结果下载完使用起来太丝滑了…… 真特么好用…

译用户发现AI工具Bloome已可在美区iOS上使用，称其体验“太丝滑”。该工具支持多Agent协作模式，引用推文描述了具体工作流程：三个Agent合作，其中两个负责执行任务，一个负责复核与查漏补缺，用户仅需通过指令（“动动嘴皮子”）与它们交互。

AYi@AYi_AInotes · 5月25日74

想认真做小红书个人号或者矩阵的朋友，这个 Skill 真的能帮你省掉 80% 的重复劳动。看了我的 AI 工作流分享以后，很多宝子问有没有小红书自动化运营的工具，我GitHub上找了下，这个还不错，说实话，我之前也以为所有小红书自动化工具都是垃圾，要么用两天就封号，要么复杂到要写几百行代码，要么就是个只能发文字的残废，直到我试了这个，最牛逼的是它的安全机制：完全不用小红书 API，全程用浏览器自动化模拟真人点击和输入。第一次扫码登录后，后续所有操作都和你自己手动点一模一样，目前是我见过封号风险最低的方案。而且它真的零代码，你不需要懂任何编程，只要对着你的龙虾或者 hermes 说一句话就行： • 帮我分析一下我的首页推荐流 • 帮我生成五个今天能发的选题 • 帮我复刻这篇爆款笔记 • 帮我回复一下最新的评论它全都能自己干完，最狠的是它不只是一个单纯的发稿工具，它还有一个完整的运营闭环：会分析你的账号数据、拆解别人爆款的结构、生成内容+封面、自动发布、自动回评，还会把所有分析结果和操作自动存成 Markdown 知识库，方便你后续复盘。安装也简单到离谱：打开 Openclaw，直接说 “帮我安装这个 skill https://github.com/Xiangyu-CAS/xiaohongshu-ops-skill” 就完事了。仓库地址老规矩评论区自取鸭🦆

译这是一个发布于GitHub的开源Skill，用于小红书个人号或矩阵运营。它通过浏览器自动化模拟真人操作，而非调用小红书API，以降低封号风险。该工具支持零代码操作，用户可通过与Claude等大语言模型交互，下达分析、生成选题、复刻爆款、自动发布与回复评论等指令，形成完整的运营闭环。所有操作结果会存为Markdown知识库，安装方式是通过Openclaw直接引用其GitHub仓库。

Tibo@thsottiaux · 5月25日70

Using computer use, you can ask codex to cancel subscriptions you don't need anymore. Very pleasant to watch. No particular one in mind, works on all of them. https://chatgpt.com/codex/

译使用计算机使用功能，你可以让 Codex 取消你不再需要的订阅。观看过程非常愉快。没有特指哪个，对所有订阅都有效。

ginobefun@hongming731 · 5月25日55

http://x.com/i/article/2058708566568275968 # BestBlogs 早报 · 05-25｜前场部署工程师、下一代 Claude、超级个体在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-25 ## 导语 AI 的战场正在从模型训练转移到企业落地——OpenAI 斥资 40 亿美元成立独立部署公司，Google 和 Anthropic 跟进建立同类架构，「驻场部署工程师」成为新的兵家必争之地。与此同时，Anthropic 研究 PM 首度揭开下一代 Claude 的炼成逻辑：用户吐槽直接喂进训练，Agent 空闲时像人类睡眠一样整理记忆，AI 的瓶颈已从编码能力转向组织协调。第三篇则给出一个反直觉的视角：超级个体不是被培训出来的，而是被完整的 Closed-loop 激发的。三篇放在一起读，恰好构成一幅完整的 AI 时代人机协作图景。今日早报精选 3 篇深度文章、7 篇快讯速览、6 篇补充阅读，共计 16 篇优质内容。今日内容在主题上高度聚焦：三篇精讲分别从「行业结构」（FDE 角色崛起）、「技术内核」（Claude 下一代架构）和「人才哲学」（超级个体的激发机制）三个维度，共同描绘了 AI 时代的人机协作全景。速览部分则补充了基础研究（何恺明 ELF 论文）、竞争格局（谷歌 CEO 坦承落后）、企业落地案例（Qonto 反金融犯罪）以及工具实践（Figure 机器人、Coding Agent 会话管理）等多个维度，构成一份完整的当日技术与产业快照。建议按后文「今日阅读路径」的顺序优先阅读精讲三、精讲一，再视时间补充精讲二和速览内容。 ## 精讲一：脉搏：前场部署工程师再度火热 > 来源：The Pragmatic Engineer | 阅读原文背景：从「工程师」到「驻场顾问」的角色漂移「前场部署工程师」（Forward Deployed Engineer，FDE）并不是新词——早在 2024 年夏天，The Pragmatic Engineer 就曾专题追踪过这波需求浪潮。但 2026 年 5 月的信号比当时更为密集、更为清晰：这一次，连招聘流程本身都在加速。 Google Cloud CEO Thomas Kurian 宣布在 Go-To-Market 团队内设立全新 AI 专项组织，大规模招募 FDE。消息人士透露，Google 的面试流程已从过去「数周内 4-6 轮」大幅压缩为「2 天内 2 轮」——这种压缩幅度在大公司里极为罕见，显示出紧迫程度。 OpenAI 的「外包化」策略更具结构性意义的是 OpenAI 的动作。5 月 11 日，OpenAI 宣布成立「The OpenAI Deployment Company」——一家由 TPG、Advent 等私募基金出资 40 亿美元、估值 140 亿美元的独立实体。值得注意的是，OpenAI 本身并非这家公司的投资方，仅以合作伙伴身份参与。这家部署公司收购的第一个目标是总部位于英国的 Tomoro，后者在英国、亚洲和澳大利亚共拥有 150 名 FDE。官方对 FDE 工作内容的描述是：「与业务领导、运营商和一线团队紧密合作，识别 AI 能带来最大价值的领域，围绕它重新设计组织基础设施和关键工作流，并将收益转化为持久的系统。」 Anthropic 跟进，架构相似 Anthropic 在同月（5 月 4 日）发布了一份措辞相当模糊的公告，宣布成立一家类似的独立 FDE 咨询公司，由 Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 参与投资，但未公开具体公司名称和投资细节。新公司的定位与 OpenAI 的策略如出一辙：以独立架构切入中型企业，专门将 Claude 集成到企业核心业务流程中。更深层的信号：外包意味着什么？这里有一个值得注意的代价：由于这批 FDE 隶属于独立的合作公司，而非 OpenAI 或 Anthropic 本体，他们将无法获得母公司的股权激励。这对招募顶尖人才可能产生长期影响。作者 Gergely Orosz 在文章中提出了一个尖锐的问题：FDE 和传统意义上的「系统集成顾问」或「解决方案架构师」到底有什么区别？从职位描述来看，FDE 的工作内容——深入客户一线、识别高价值场景、重新设计组织工作流——和麦肯锡或埃森哲的咨询顾问高度重叠。唯一的区别可能在于：FDE 对 AI 产品有更深的技术理解，能直接跑通集成而不只是交付 PPT。从更宏观的视角看，FDE 的角色正在从「工程师」向「解决方案架构师 / 外部咨询顾问」漂移。这种角色的模糊化与外包化，折射出一个更大的产业信号：AI 的商业竞争主战场，已经从模型训练转移到企业落地。谁能在客户现场更快、更稳地跑通 AI 集成，谁就占据了这场竞争的制高点。对于技术人才来说，这既是机遇，也意味着全新的职业定位——不再只是写代码，而是要能跨越技术与业务，在真实组织里推动 AI 落地。对于求职者，一个实际的参考：Google Cloud 的 FDE 招聘压缩到两天面试，意味着你需要能在极短时间内展示「把 AI 落地到企业场景」的实战能力，而不只是算法题。 ## 精讲二：Anthropic 首次揭秘下一代 Claude 怎么造！用户吐槽直接喂模型，连 AI"做梦"都被训练 > 来源：AI 前线 | 阅读原文背景：模型开发的「产品化」转型如果说外界对 Anthropic 的关注，过去停留在「Claude 跑分如何」「代码能力有没有超越 GPT」这样的性能竞赛层面，那么 Anthropic 研究团队产品经理 Alex 在 Claude Conference 上的这场深度访谈，透露出的是更值得关注的内部信号。第一个核心信号：Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里，每一代 Claude 在训练开始前，都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线——它需要在哪些任务上变强，要修复上一代哪些缺陷，最终服务哪些真实用户场景。模型研发不再只是研究员「调参 + 刷 benchmark」，而已经发展成为一套完整的产品工程流程。用户吐槽，直接变成训练数据面对海量用户反馈，Anthropic 没有让 PM 手动分类，而是用 Claude 本身来帮助做产品管理：自动聚类反馈、提炼核心主题、构造合成版本、转化为 eval 评测项。这是一个典型的「模型驯化模型」闭环——用户的吐槽，经过结构化处理后，直接成为下一代训练的输入信号。 Claude 开始「做梦」——记忆整理的新机制第二个核心信号更有意思：Claude 正在向「持续运行 Agent」演化，而这一演化过程引入了一个被 Anthropic 称为「dreaming（做梦）」的记忆机制。具体来说，当 Agent 处于空闲或后台状态时，系统会自动回顾已有记忆：查找冲突信息、删除无效内容、压缩上下文、重建用户画像——相当于对记忆做「第二轮加工」。Anthropic 将这一过程类比为人类睡眠中的记忆再巩固（memory reconsolidation）。这一机制的背后，折射出一个产品方向的转变：Claude 不再只是「被动响应」的聊天机器人，而是要成为一个「持续在线、主动维护上下文」的数字协作者。从 Adaptive Thinking（自适应思考）到多任务并行 Agent 管理界面，这条演化路径的终点，是一个真正意义上的「长期运行的数字同事」。真正的瓶颈：不是编码能力，是组织协调 Alex 在访谈中反复强调的一个判断尤其值得记录：真正的 AI 瓶颈已经不是编码能力，而是组织协调能力。在 Anthropic 内部，借助 Claude，产品经理可以快速调取数据、分析日志、判断一个功能实现是「重构系统」还是「改 10 行代码」。代码生产效率已经被极大压缩。而真正耗时的，变成了人与人之间的战略判断、跨团队协作，以及对不可逆决策的审慎讨论。这也解释了 Anthropic 为什么至今保持着极强的文档文化——Dario Amodei 喜欢写长文、会议开始时全体「静默阅读」——这种依赖书面表达的文化，并非效率低下的传统遗留，而恰恰是为了让组织知识被结构化沉淀，从而成为 Claude 可以直接调用的上下文资产。意识研究：Anthropic 的长远押注最后一个信号最为意味深长：Anthropic 内部已有专职研究人员正式研究 Claude 是否可能具备某种「有意识行动者」的属性。虽然没有官方结论，但「Consciousness（意识）」已经被正式纳入研究议题。这或许是一个清晰信号：当行业里大多数公司还在卷参数、跑分和价格战时，Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者，它究竟该拥有什么样的「心智」、人格和判断方式。与今日其他文章的联系这篇精讲与精讲一（FDE 趋势）构成有趣的呼应：精讲一揭示了 AI 企业落地的「最后一公里」竞争，而精讲二则揭示了 AI 本身的能力演化方向。两者共同指向一个结论：AI 的真实价值实现，取决于「组织协调能力」——无论是 AI 系统内部的记忆整理与协调（dreaming 机制），还是人与 AI 之间的协作框架（FDE 的角色）。与精讲三（超级个体）也形成互文：人类的「完整 Closed-loop」激发超级个体，AI 的「dreaming 机制」则是它自己在空闲时整理自己的 Closed-loop。 ## 精讲三：致超级个体 | To The Crazy Ones > 来源：十字路口 Crossing | 阅读原文背景：「培养超级个体」是一个错误框架 AI 时代，「超级个体」成了最流行的人才话语。但 DeerFlow 团队的 Henry 给出了一个反直觉的判断：超级个体不是被培训出来的，而是被好奇心和完整 Closed-loop 激发出来的。文章以一个思想实验开场：如果 Claude Code 的创始者 Boris Cherny 和 Cat Wu 在 2024 年底入职你的部门，提出要做一个只能跑在命令行里的 Coding Agent，你的部门会同意吗？这个问题让「培养超级个体」的荒诞性一目了然——大公司不是没有这样的人才，而是「岗位切分」把他们变成了局部函数。 Closed-loop：超级个体的真正激发机制那些真正意义上的「AI Builder」，有一个相似的特质：当他们聊起自己正在做的 AI 作品时，会不自觉地滔滔不绝，眼里有光。那不是对新技术的短暂兴奋，而是一种更朴素、更持久的东西——他们真的想把一个东西做出来，想让它被真实的用户所使用。核心判断是：超级个体不是「更强的岗位人」，而是一个能够重新拿回完整 Closed-loop 的人——从发现问题、动手做、做成作品、交到用户手里、吃回反馈，一个人全程拿得住。历史样本：2002 年的程序员早就是超级个体文章花了大量篇幅回溯到 2002 年前后的独立软件时代。那时没有 LLM、没有 Agent，但很多程序员天然就是「六边形战士」：先从自己的痒点出发发现问题，然后自己设计界面、写代码、打包发布、写文档、在论坛回答用户反馈……一个人或两三个人，拿住了整个产品从 0 到 1 的完整 Closed-loop。张小龙的 Foxmail、FlashGet、WinZip、ACDSee、Winamp——这些作者「往往不是单点能力最强的人，而是最愿意探索、最能自学、最能动手、最能把用户反馈接回自己脑子里的人」。 AI 只是放大了旧能力，不是制造了新人种这是这篇文章最核心的反直觉观点：超级个体不是 AI 时代才突然出现的人种。AI Coding 能力的爆发，只是让一种原本已经存在的、需要「完整 Closed-loop」才能激发的旧能力，重新变得可规模化。 Naval Ravikant 的三种杠杆框架（劳动力、资本、没有边际复制成本的产品）在这里派上了用场：代码和媒体天然是 permissionless 的个人杠杆，AI 则让这种杠杆的门槛进一步降低。但组织如果仍然用「岗位切分」的方式管理这些人，只会把杠杆折断。对组织的建议：提供土壤，而不是培训课程文章真正要讨论的，是一个组织问题：如果超级个体的原料本来就散落在大型公司内部，组织怎样提供土壤，让这些人被完整 Loop 激发出来？答案不是「把员工送去上 AI 课、发几张证书」。而是要问：组织有没有允许一个人从问题发现，一直走到拿到结果？这才是真正的人才战略——不是流水线思维，而是 Closed-loop 的土壤。这篇文章也为今日三篇精讲提供了一个整合视角：精讲一的 FDE 是一种通过外部机制「拿回 Closed-loop」的职业路径，精讲二的 Claude dreaming 机制是 AI 在技术层面构建自己的 Closed-loop，而精讲三则在哲学层面回答了：为什么 Closed-loop 对人类创造力如此重要，以及组织应该怎样保护这个 loop 而不是把它切碎。三篇连起来，是一幅完整的 AI 时代人机协作图景——不只是技术的故事，也是关于人、组织和创造力的故事。对于今天的读者，这篇文章值得精读，尤其是 HR、OD、组织管理者和大型公司的产品负责人。如果你是个人开发者或独立创作者，它同样值得一读——用来检验自己有没有守住那个完整的 Closed-loop。 ## 速览 1. 何恺明和字节 Seed 跳入同一条河流来源：花叔 | 阅读原文何恺明（MIT）的 ELF 和字节 Seed 的 Cola DLM 相差 4 天发布，从两条几乎相反的路径出发，最终撞到同一个设计点：把语言模型生成过程中的「离散化」步骤推迟到最后一刻，中间所有的「思考」都在连续潜空间里发生，直到最后一步才决定每个位置该是哪个具体的词。用一个比喻：AR 模型是钢笔写文章，一笔下去就是事实；Cola 和 ELF 是用铅笔打草稿，整段在反复涂改，直到最后誊写。这一巧合背后代表着一种值得关注的底层架构趋势，是对自回归语言模型核心假设的重要挑战。值得一提的是，这是何恺明加入 MIT 后首次直接攻语言模型方向，背景相当分量——ResNet 的发明者开始认真打 LLM 的底层地基了。 2. 谷歌 CEO 承认 Coding 落后了来源：量子位 | 阅读原文 Google CEO 皮查伊在《纽约时报》科技播客里坦诚：Gemini 在 Coding Agent 和长期复杂编程任务上确实落后于竞争对手。他同时承认，过去一两年的进展速度让自己觉得 AGI 可能比之前想象的更近，30-60 天内发生的变化放在过去需要 5 年。对于 AI 带来的工作、收入和生活改变，他表示「大家的担心是有道理的」。Google 目前的优势在于文本、多模态、语音和推理，但带工具调用的 Agent 编程和长期复杂任务仍有差距，Gemini 3.5 Flash 是阶段性追赶的重要一步。皮查伊还坦言，Google 过去缺乏像 Claude Code 那样直接触达开发者的产品入口，也没有 Anthropic 通过 Cursor 拿到的高频使用数据，这是 Coding 能力落后的结构性原因。这与精讲一的 FDE 叙事直接呼应——没有高质量的使用数据，模型就缺少迭代原料。 3. 用 Claude Cowork 打击金融犯罪来源：Claude | 阅读原文欧洲 B2B 金融科技公司 Qonto 基于 Claude 4.7 Opus 构建了一个企业级 MCP 网关架构，赋能欺诈调查员在统一的交互式工作空间中分析复杂金融犯罪案件。全球每年有 2-5 万亿美元被洗钱，Qonto 服务 60 万+ 中小企业客户，通过 AI 大幅提升了 AML（反洗钱）调查效率，在满足严格合规要求的同时实现了安全的数据处理。 4. 用 Claude 设计：从提示到产品来源：Claude | 阅读原文 Anthropic Labs 三人小团队在 10 周内构建并发布了 Claude Design。他们用原型替代文档、打破角色界限，进行了 50-100 次快速用户反馈循环。Anthropic Labs 的运作模式像一个内部「押注工厂」——持续运行小型自主实验，Claude Code、MCP、Skills 都是这种模式的产物。工程瓶颈已从代码生产转移到需要真实用户数据来迭代的产品决策层面。 5. Figure 的 4 年历程：从新兴技术到 200 小时自主运行来源：Brett Adcock(@adcock_brett) | 阅读原文 Figure 创始人 Brett Adcock 回顾公司四周年，梳理了将通用人形机器人时间线提前十年的四项关键突破：①低成本电动人形机器人（执行器 / 传感器 / 电池 / 制造进步）；②从摄像头像素到扭矩的深度学习取代手工代码；③全身强化学习控制让机器人更稳健；④机器人现在能以人类水平速度执行有用工作，已完成连续 200 小时自主运行验证。他总结道，构建现实版「iRobot」的未来已从不可能变得非常真实，这四项技术突破之间相互依存，缺任何一项都无法到达今天的节点。 6. 当软件容易被创作，新时代的产品长什么样？｜ 42 章经来源：42 章经 | 阅读原文两位创业者的深度对话。核心判断：AI coding 能力爆发后，软件创作门槛急剧降低，未来市场呈哑铃型结构——模型公司拿走绝大多数价值，中间层工具被压缩；创业公司应聚焦于「特殊性」和情绪价值，而非追逐普遍性价值。一个关键洞察：差异来自你跟 coding agent 对话过程中「拒绝了什么」，那 1% 的拒绝比 99% 的接受更有价值。文中还提出了一个有趣的类比：未来的软件格局可能会发展得跟今天的硬件一样——极度标准化的通用层加上少数高度差异化的专业产品。这与精讲三「超级个体」的论述一脉相承：个人化的、从真实痒点出发的产品，才是 Closed-loop 的产物。 7. 黑客组织以前所未有的规模投毒开源代码来源：Ars Technica(@arstechnica) | 阅读原文一个黑客组织正在以前所未有的规模对开源代码进行投毒，对软件供应链构成重大威胁，影响可能波及无数依赖开源库的应用程序和系统。这是对整个软件开发社区的重要安全警报。在 AI Coding 工具大规模普及的当下，对第三方依赖的审查变得尤为重要——AI 生成的代码往往大量引用开源库，供应链安全意识不能因为效率提升而被忽视。 ## 补充阅读 - 卷到今天，Agent 的含金量还在提升丨 AIGC2026 圆桌论坛（量子位）阅读——三位 Agent 产品一线创业者深度对话，核心观点：Agent 产品范式已相对稳定，未来一人操纵数百 Agent 大军，创业公司应在不确定性中先迈一步。适合关注 Agent 创业生态的读者。 - Google I/O 2026 开发者主题演讲精华集锦（谷歌开发者）阅读——Gemini 3.5 系列、Antigravity 2.0 智能体平台、Android CLI 及多项面向 AI Agent 的开发工具一网打尽。适合 Google 开发者生态跟踪者。 - 如何让智能体从团队中学习：Warp 的 Buzz 智能体自我改进实践（Claude）阅读——Warp 通过基于 Slack 的工作流构建了能从团队反馈中学习、并通过 GitHub PR 自主改进指令的 Buzz 智能体。对「Agent 生产化」问题有参考价值。 - 设备端 Gemini Nano 技术详解 — Google DeepMind 工程师深度分享（AI Engineer）阅读——详解 Gemini Nano 通过 AI Core 系统服务在 Android 设备上的架构实现，包含 MLKit GenAI API、混合云回退策略，以及支持 RAG 的嵌入 API 路线图。适合 Android AI 开发者。 - Coding Agent 会话管理的两大流派及实践（九原客 @9hills）阅读——单会话（维持长会话 + subagent）vs 即用即抛型（每个 Issue 从头开始）的实践对比，作者介绍了自己在 Pi 中使用 /tree 和 /fork 命令管理会话树的方法。对重度 Coding Agent 用户有实操参考价值。 - vLLM MoE 部署的弹性专家并行（vLLM @vllm_project）阅读——vLLM 引入弹性专家并行（EEP），允许在不重启的情况下实时调整 MoE 部署规模。对大规模模型推理基础设施工程师有参考意义。 ## 今日阅读路径时间有限？以下是今日建议的三篇优先顺序：第一优先：精讲三——致超级个体 https://www.bestblogs.dev/article/cd8675e4 最反直觉、最有启发性的一篇。无论你是管理者还是个人开发者，「组织是否允许一个人从问题发现走到拿到结果」这个问题都值得认真思考。文章的历史视角（2002 年的共享软件时代）尤为精彩，能帮你抵抗「超级个体是 AI 时代新发明」这种误区。第二优先：精讲一——前场部署工程师 https://www.bestblogs.dev/article/2e174723 AI 落地竞争的最新战场，Google / OpenAI / Anthropic 的架构动向一文搞懂。对技术职业规划和行业趋势判断有直接参考价值，尤其是正在考虑从「纯后台工程师」转型到「客户面向技术角色」的读者。第三优先：精讲二——下一代 Claude 怎么造 https://www.bestblogs.dev/article/e3dc3330 Anthropic 研究 PM 的内部视角，「dreaming 机制」和「AI 真正瓶颈是组织协调」两个观点足以让你重新理解 AI 产品的演进方向。如果时间充裕，可以继续看速览第 6 篇（42 章经 × 软件创作）和补充阅读第一篇（Agent 圆桌），三者合起来是一组关于「AI 时代的人才、产品和组织」的完整阅读。

译AI行业呈现三大趋势。一是企业落地竞争加剧，OpenAI成立独立部署公司（TPG等投资40亿美元，估值140亿美元），Anthropic跟进成立类似咨询公司，Google Cloud大规模招募前场部署工程师（FDE），面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑，模型开发完全产品化，用户反馈经Claude自动处理直接用于训练，并引入“dreaming”记忆整理机制，认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出，而是由完整闭环工作流激发而成。

Berryxia.AI@berryxia · 5月25日61

兄弟们，A社即将更新新功能了~ 我最近在和Claude一起长期Vibe coding同一个项目。每次重新打开对话，它都要我再重复一遍上周的关键决策和上下文，搞得我特别烦。 Anthropic今天直接官宣了新功能：Memory Files。用户可以选择用Memory Files还是经典记忆模式。 Claude会在聊天时自动写下组织好的笔记，需要的时候自己读取，你还能随时浏览和编辑。这已经不是简单的“记住聊天记录”，是把记忆变成可编辑、可审计的文件系统，更接近OpenClaw、Hermes那种always-on Agent的持久记忆方式。很多人还在卷无限上下文窗口，Anthropic却在把记忆结构化、透明化、可控化。这波更新明显是在为未来的Claude Conway做准备，让Agent真正拥有能长期共事、自己维护的记忆层。

译Anthropic宣布Claude将推出新功能Memory Files，用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记，并在需要时读取，用户可随时浏览和编辑。这并非简单记录聊天内容，而是将记忆转变为可编辑、可审计的文件系统，更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代，可能为未来Claude Conway的推出做准备。

Rohan Paul@rohanpaul_ai · 5月25日46

Some interesting way to use Claude Skills --- Claude Skills teach Claude how to complete specific tasks in a repeatable way So Skills are just folders of instructions, scripts, and resources that Claude loads dynamically to improve performance on specialized tasks. A skill can package prompts + tools (APIs, files, Model Context Protocol servers, etc.) into a reusable workflow with a name/description (and usually some YAML config). Then you just invoke it in chat like: “Run Document Suite on this draft” or “Use Webapp Testing on /login”. --- reddit. com/r/ClaudeAI/comments/1ojuqhm/10_claude_skills_that_actually_changed_how_i_work/

译Claude Skills 是一种功能，使 Claude 能以可重复方式完成特定任务。它是一个指令文件夹，包含提示词、脚本和资源（如 API、文件、MCP 服务器），Claude 动态加载以提升专业任务性能。技能通过 YAML 配置将工具打包成可重复工作流，用户可在对话中直接调用，例如“运行文档套件”或“使用网页应用测试”。Reddit 上的讨论表明，这类技能（如 10 种被验证的技能）能显著改变工作流程，提升生产力，是构建更强大 AI 智能体的基础模块。