OpenAI Codex - Record & Replay 有些工作流很难用纯文字精准描述，但"做一遍"却很直观。比如填写报销单、配置 issue、发布视频，这类任务往往依赖大量隐性偏好，写出来冗长且易遗漏，录下来反而清晰。 Record & Replay 就能满足这个需求，给 Codex 演示一次工作流，Codex 就可以把它固化为可复用的 AI Skill。 https://developers.openai.com/codex/record-and-replay 底层逻辑 Codex uses the skill as reusable context for the task. 这说明 Skill 本身是给 AI 提供的结构化上下文。回放时，AI 可以调用当前环境中可用的工具组合（Computer Use、浏览器操作、已安装插件）来完成任务。这意味着： · Skill 是语义化的，而非死板的操作录制； · 回放时具备适应性，可以根据新输入（不同的文件、日期、issue 内容）做合理变化； · 它依赖运行环境的工具能力，而非固定绑定某一种执行方式。这是一种"演示即规格（demo-as-spec）"的设计哲学。工作流程的两阶段阶段 1：录制（Record） 1. Plugins → + → Record a skill 2. Codex 先建议一个 prompt，你可以补充上下文（目标 + 可变输入） 3. 授权录制权限后开始演示 4. 演示完毕，从菜单栏/浮层停止，或直接告知 Codex 完成 5. Codex 自动分析录制内容并起草 Skill：包含「何时使用 / 需要哪些输入 / 步骤 / 如何验证结果」 6. 可进一步 refine（提炼隐性偏好）阶段 2：回放（Replay） 1. 新建会话，要求 Codex 使用该 Skill 2. 提供本次不同的参数值（文件、日期范围、issue 内容等） 3. Codex 调用环境内工具完成任务高质量录制的五条原则（最佳实践） 1. 短而完整 —— 录一次完整闭环，不录半截。 2. 提前声明变量 —— 把"每次会变的输入"告诉 Codex，便于参数化。 3. 真实但脱敏 —— 用真实数据形态，但绝不录入密钥/敏感信息（这点是安全红线，录制会捕获窗口内容）。 4. 补录隐性规则 —— 录制后主动 refine，把命名约定、默认值、决策点写清楚，这是 Skill 质量的关键。 5. 及时停止 —— 任务完成立即停，不要顺手做无关清理，避免噪声混入 Skill。关键决策：Record & Replay vs. Plugin · 目标：个人/快速 Skill 化 vs. 团队级稳定分发 · 形态：单一 Skill vs. 可打包多 Skills + MCP + 集成 · 成本：低（录一次） vs. 高（需规范构建） · 适用：个人偏好型工作流 vs. 标准化、可复用资产

译OpenAI Codex 新增 Record & Replay 功能，用户可通过“演示一次工作流”创建可复用的 AI Skill。底层将 Skill 作为结构化上下文，回放时具备适应性，能调用当前环境中的工具完成任务。流程分两阶段：录制时 Codex 分析操作并自动起草 Skill（含使用时机、输入、步骤、验证）；回放时用户提供新参数，Codex 自动执行。官方总结了五条高质量录制原则：短而完整、提前声明变量、真实但脱敏、补录隐性规则、及时停止。该功能与 Plugin 形成互补：适合个人快速 Skill 化，而非团队级分发。

向阳乔木@vista8 · 6月21日70

不求设计师！Codex一句话生成App图标，加快项目开发速度。开源乔木icon设计Skill，支持两种方案： 1. Codex内调用Imagen生图能力，参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SVG图标，加上纯色或渐变背景生成icon。无论开发App，还是网页，都可以快速设计图标，挑选使用。当然，精细打磨还是要靠设计师。 Skill安装方法： npx skills add joeseesun/qiaomu-icon-generator 开源Github地址见评论区

译Vista分享开源乔木icon设计Skill，支持Codex内一句话生成App/网页图标。两种方案：1）调用Imagen生图，参考数百图标示例；2）搜索2万SVG图标，搭配纯色或渐变背景。适用于快速原型开发，精细设计仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

向阳乔木@vista8 · 6月21日65

牛逼，最近看到的最酷的项目。

译开发者 @zhongerxin 发布开源项目 Cowart，将 OpenAI Codex 与无限画布工具结合，作为 VS Code 插件使用。项目名 Cowart 取自 "Code with Art"。代码已托管至 GitHub：https://github.com/zhongerxin/cowart#

François Chollet@fchollet · 6月21日65

The more you embrace AI, the more you need SaaS. This is not obvious to armchair market analysts who love disruption narratives, but it is obvious to people actually running companies.

译François Chollet 指出，越拥抱AI，就越需要SaaS。Box CEO Aaron Levie 将 Salesforce 的 MCP 服务器接入 Claude Code 后，Salesforce 使用量达到此前的5倍。他开始查询以往懒得手工操作的客户和市场情报。智能体消除了操作摩擦，底层系统被更多查询而非取代。对持有 $CRM 的投资者而言，智能体时代是用户参与度的顺风车，而非颠覆风险，前提是数据平台能承载查询负载。

向阳乔木@vista8 · 6月20日56

这个思路不错，充分发挥了Codex能读内置浏览器的优势。而且不需要API，就能用Codex内置的Imagen模型生图

译Codex 利用其内置浏览器读取能力，无需调用 API 即可直接使用内置的 Imagen 模型进行图像生成。配合画布工具，实现了更直觉、保留修改痕迹的图片标注与调整方式。此外，直接使用 Codex 还能自由调用 GPT Image 2 完成图像生成任务。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日52

Claude Enterprise admins can now centrally authorize MCP connectors for their organizations via a new Enterprise-Managed Auth extension. Mass MCP 👀

译Claude Enterprise 管理员现在可以通过新的 Enterprise-Managed Auth 扩展，为其组织集中授权 MCP 连接器。 Mass MCP 👀

小互@xiaohu · 6月19日65

豆包实时语音模型3.0 API 上线看演示还是很牛P的，能干不少事情了全双工：能同时听和说，像真人聊天那样可以随时插话端到端：语音进、语音出，不进行转录，更快、更自然。精准遵循 + 适时参与：你可以一句话给它定规矩，比如多人聊天时说「现在先别出声，聊到世界杯时再加入」，它就安静待命，等话题真到了再主动接话最关键的一步升级：它支持自定义工具，能在实时对话里直接调用工具完成任务，预定日历、发邮件、总结文档、发起查询，一句话语音就在对话流里办完。这等于从「语音助手」往「语音 Agent」迈了一步

译豆包实时语音模型3.0 API正式上线。支持全双工（同时听和说，可随时插话）和端到端（语音进、语音出，无转录），交互更快速自然。具备精准遵循指令能力，如设定“先不出声，聊到世界杯再加入”后安静待命。关键升级是支持自定义工具，可在实时对话中直接调用工具完成任务（预定日历、发邮件、总结文档、发起查询等），从“语音助手”向“语音 Agent”迈进。

Peter Steinberger 🦞@steipete · 6月19日25

Everything’s either a fast or slow API now.

译Peter Steinberger 引用 @nickbaumann_ 介绍 Codex Record & Replay™️ 新原语：让 Codex 观看用户电脑操作，通过录制和事件（与 computer use 同框架）理解操作，转化为未来可复用的技能。使用案例：按个人风格格式化日历邀请（GCal 插件）、起草 PR 并分享到指定 Slack 频道、录制入职流程发现摩擦点（不生成技能）。Steinberger 称“所有东西要么是快速 API 要么是慢速 API”。

向阳乔木@vista8 · 6月19日71

Codex产品优秀，但有些场景还是需要Claude Code。比如写作还是用4.6 sonnet，前端网页用4.8 。还有些场景要随时调用国产便宜模型，比如智谱 GLM-5.2，Deepseek V4 Flash等，用于开发、翻译等。开发了个MCP，支持Codex中掉CC干活。也支持多模型N轮讨论，交给Codex总结出方案。项目已免费开源，见评论区

译开发者在Codex基础上开发了一个MCP，支持在Codex中调用Claude Code（用于写作等场景用Claude Sonnet 4.6，前端网页用Claude 4.8），并可随时调用国产廉价模型如智谱GLM-5.2、Deepseek V4 Flash用于开发、翻译等。该MCP还支持多模型多轮讨论，由Codex汇总方案。项目已免费开源。

Berryxia.AI@berryxia · 6月19日32

Grok &Word 插件在Office 里面也可以起飞了😂 不过国内用wps的人感觉比Office多啊，尤其很多人估计还是盗版吧…

译Grok & Word 插件在 Office 里面也可以起飞了😂 不过国内用 wps 的人感觉比 Office 多啊，尤其很多人估计还是盗版吧…

向阳乔木@vista8 · 6月19日68

有意思，开发一个MCP，连接到网页版的ChatGPT。使用这个MCP就能读取本地的文件。 Codex额度用光，无法重置时，也可以继续用ChatGPT开发。变向获得了双倍codex额度，虽然有点诡异。配置注意事项：打开 ChatGPT网页端，设置->应用->高级模式->开启开发模式，添加MCP

译开发者 @wshxnv 发布 DevSpace——一个 MCP 连接器应用，能将 ChatGPT 网页版变成 Codex。通过 `npm install -g @waishnav/devspace` 安装后，将 MCP 服务器通过互联网隧道，即可享受双倍 Codex 额度。配置时在 ChatGPT 网页端设置→应用→高级模式开启开发模式并添加 MCP。使用场景：用 GPT-5.5 Pro、xHigh 或 High 规划，再交给本地 Codex/pi/opencode/Cursor/Claude Code 执行；也可用于审查代码。DevSpace 利用 OpenAI 给 ChatGPT 和 Codex 分离额度的设计，变相获得双倍额度。开发者提醒节制使用。

Berryxia.AI@berryxia · 6月19日66

这货Browser Use又整活了，兄弟们！这下真的是给你的“Agent 长眼睛了！” 开源还免费🆓 它直接开源了个浏览器agent模板B，让任何agent都能用上真实的云端浏览器，还能实时看到它在网页上操作。这个模板叫B，基于Vercel的Eve构建。给你的agent接上Browser Use Cloud browser后，它就能真正上网浏览、点击、填写表单，而且你能通过browser-harness实时看到整个过程。 GitHub上直接clone就能用，还支持初始化skills和MCPs。以前做browser agent最麻烦的就是：要么用模拟环境看不见真实交互，要么黑箱运行出问题不知道哪里错了。现在有了这个模板，agent在网页上的每一步都可视化、可调试，还能直接连真实云浏览器。这其实把browser automation从“能用”推向了“真正好用”的阶段。 Agent不再是只在代码里模拟网页，现在能在真实网页环境里执行任务，还能被人类实时观察和干预。最关键的是它开源了模板，任何人都能基于这个快速搭建自己的browser agent。未来可能越来越多agent会默认带上一个“看得见”的浏览器，而不是纯文本交互。现在开源的生态真好啊😆

译Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器（Browser Use Cloud），实现网页浏览、点击、填表等操作，并通过 browser-harness 实时可视化执行过程，支持调试。模板已发布在 GitHub，可直接 clone 使用，支持初始化 skills 和 MCPs。开源免费，降低了开发可观测、可干预的 browser agent 的门槛。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日54

Claude Code users on Team and Enterprise plans gained access to Artifacts, new interactive pages that can be built based on their Claude Code sessions. Every session is an Artifact now 👀

译Claude Code 的 Team 和 Enterprise 计划用户现已获得 Artifacts 访问权限，这些是基于 Claude Code 会话构建的新交互式页面。现在每个会话都是一个 Artifact 👀

Rohan Paul@rohanpaul_ai · 6月19日55

Agents can now have their own email! @atomic_mail just launched something to fix a missing piece in agentic workflows: agents need inboxes of their own, not borrowed human ones. So Atomic Mail connects to popular agents like Claude Desktop, Cursor, OpenAI-based agents, and custom API agents through MCP, Agent Skill, or direct JMAP/REST API. With one prompt, an agent can get its own inbox and start handling workflows like newsletter monitoring, job applications, invoice processing, customer support, competitive tracking, and human escalation over email. Their smart design choice is PoW (Proof-of-Work) plus reputation, because single good agents move normally while mass spam attempts become expensive and low-reputation senders get throttled. PoW here means each agent has to do a tiny computational task before sending email, which is cheap for one real agent but expensive for someone trying to spin up 1M spam agents. And for "Reputation" agents need to keep sending normal, non-flagged emails to earn more trust over time, while suspicious agents get slowed down or blocked.

译Atomic Mail 发布 API-first 邮箱，专供 AI 智能体独立使用，不再借用人类邮箱。智能体通过 MCP、Agent Skill 或 JMAP/REST API 一键获取收件箱，支持 Claude Desktop、Cursor、OpenAI 等主流 Agent。典型场景包括新闻监控、求职、发票处理和客户支持。防滥用机制采用 PoW（工作量证明）+ 声誉系统：智能体发信前需执行小额计算，对合法 Agent 成本低，但批量垃圾发送成本高昂；声誉随行为动态调整，可疑发送者被限速或封禁。目前免费公测中。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日62

Atomic Mail has launched its API-first email, built for AI agents, in which inboxes belong to the agents themselves. > Atomic Mail operates through MCPs and Agent Skills. > The agent registers its own account and sends, receives, and replies without a person in the loop. Agents are taking over 👀

译Atomic Mail 发布 API-first 邮件服务，专为 AI 智能体设计。智能体可通过 MCP 或 Agent Skill 一键接入，拥有独立收件箱，无需人工参与即可自动收发和回复邮件，实现全自动化工作流。目前该服务处于免费开放 alpha 阶段。

jason@jxnlco · 6月19日70

codex thursday~ boy is it a bad day to me a manual workflow that crosses application boundaries on your computer

译向Codex演示一次工作流后，即可将其保存为可复用的技能。Record & Replay让Codex学习重复任务（如报销、请假），并转为可检查、可编辑的技能。用户可控制录制的起止。Jason Liu感叹：跨应用手动工作流的日子不好过了。

ClaudeDevs@ClaudeDevs · 6月19日55

We've added support for the Enterprise-Managed Auth extension to MCP. Admins can centrally authorize MCP connectors for their organization, so all the tools and data users need are connected on their first login.

译我们已为 MCP 添加了企业托管身份验证扩展的支持。管理员可以为其组织集中授权 MCP 连接器，这样用户首次登录时即可连接所需的所有工具和数据。

🚨 AI News | TestingCatalog@testingcatalog · 6月18日71

Microsoft Teams users can now hire Victor as an AI employee to get support with their goals. Viktor can read from and write to more than 3,000 tools and maintain persistent memory across sessions, so it picks up where a team left off instead of starting over each day. Zeta Labs reports SOC 2 Type 1 certification and says @viktor__com is officially approved by Microsoft for Teams.

译Zeta Labs 的 AI 员工 Viktor 已登陆 Microsoft Teams。Viktor 可读写超 3000 个工具，并具备跨会话持久记忆，团队可接续工作。该产品已获 SOC 2 Type 1 认证及微软官方批准。此前在 Slack 中，Viktor 仅凭单一应用、无销售团队与推广即实现超 2000 万美元年经常性收入。面向 Teams 3.2 亿用户，Viktor 采用零门槛设计：用户只需 @提及即可完成任务，无需学习、提示词或理解 AI 能力。新用户获赠 100 美元额度，无需绑定信用卡。

AYi@AYi_AInotes · 6月18日72

这个真的厉害，虚幻引擎5.8直接把MCP做进原生系统了，接Claude动嘴就能摆家具建城市，场景自己长出来。 Claude 直接连上虚幻编辑器，人在右边聊天，场景在左边自己长出来。"客厅布置好"，沙发椅子灯全摆好。"加两把休闲椅"，自己找位置塞进去。以前拿鼠标一个一个拖，现在用嘴喷就行了，虚幻 5.8 已发布，MCP 在 Experimental 分支。楼下 Thread 整理了这次全部新功能👇

译虚幻引擎5.8将MCP协议原生集成进编辑器（Experimental分支），用户通过Claude聊天即可自动生成并布置场景，如“客厅布置好”“加两把休闲椅”，取代手动拖拽。UCSD黄碧薇教授（causal-learn作者）将AI发展划分为四代：相关性小模型→因果小模型→相关性大模型（当前LLM）→因果大模型，并从视频自动提取人类无法用公式描述的物理规律。其创立的Aether AI宣布完成首轮融资，被视为下一代因果AI范式的早期押注。

小互@xiaohu · 6月18日58

Unreal Engine 虚化引擎 5.8 今天发布，其中一个新功能是加入了实验性的 MCP插件让你可以用自然语言通过 Claude Code 在虚幻引擎里创造各种场景：从布置现代客厅(沙发/地毯/茶几) 到画边界生成整座城市(城区/高速/路网/建筑) 再到一句"波哥大早上九点半"自动算太阳位置和大气过去手工要几个月、要调几十个光照参数的活降到几天、一句话搞定

译Unreal Engine 5.8 发布，新增实验性MCP插件，允许通过 Claude Code 用自然语言在引擎内创建场景。演示案例包括：一句话布置现代客厅（沙发、地毯等）、画边界生成整座城市（城区、高速、路网）、输入“波哥大早上九点半”自动计算太阳位置和大气参数。此前需要数月手工调校数十个光照参数的工作，如今可缩短至几天甚至一句话完成。

Rohan Paul@rohanpaul_ai · 6月18日65

Anthropic just rolled out a major Claude Design update, adding design system imports, code round-trips, and a fix for its heavy token usage issue. The old version worked more like a smart visual generator: you described a webpage, slide, or app screen, and Claude created something polished, but the output came from Claude’s own taste rather than your company’s design system. The new version changes the control layer, because Claude can now import design systems from repos, design files, or codebases, then build with the actual buttons, fonts, colors, spacing rules, and components your team already uses. That means the model is no longer only generating a design; it is checking whether its own output matches the approved system before you see it. This is a big deal for companies because brand consistency is usually boring, manual, and easy to break when many teams are making pages, decks, ads, and product screens at high speed. The Claude Code sync is the other major shift, because design and engineering can now pass work back and forth through the same Claude environment instead of relying on screenshots, specs, or a developer rebuilding the mockup from scratch. A designer can start with a visual design, hand it to Claude Code, and a developer can continue from the real component library, while a developer can also start in code and sync the design project back. The canvas editor also super useful, because small changes like drag, resize, and align no longer need a full model regeneration, which should reduce wasted tokens and make the tool feel less like a demo and more like daily software. Anthropic wants Claude Design to become the starting point for branded assets, product prototypes, and code-ready interfaces, then send that work into tools like Canva, Adobe, Vercel, Replit, PDF, and PowerPoint.

译Anthropic 对 Claude Design 进行重大更新。新版本支持从代码仓库、设计文件或代码库导入团队现有设计系统，使输出匹配实际按钮、字体、颜色等品牌规范，而非仅靠模型自身审美。新增 Claude Code 同步，设计和工程可在同一环境内来回交接，无需截图或重新构建。画布编辑器支持拖拽、调整大小、对齐等直接操作，无需重新生成完整模型，大幅减少 token 浪费。更新还修复了早期版本 token 消耗过重的问题。Claude Design 旨在成为品牌资产、产品原型和代码就绪界面的起点，并计划与 Canva、Adobe、Vercel、Replit、PDF、PowerPoint 等工具打通。

小互@xiaohu · 6月18日64

Claude Code 和 Claude Design 打通了现在支持双向同步了运行 /design-sync 可以将你的设计直接拉取到你的代码库中，并基于您的真实组件进行构建，同时也可以使用/design 将你构建的内容推回到 Claude Design 并继续在画布上编辑... 同时编辑器新增了直接在画布上拖拽、缩放、对齐元素的功能，可以直接改字体、颜色这些细节，更接近传统设计工具的操作方式，不再只能靠对话调整。导出格式：PDF、PPTX、Canva、HTML、Claude Code。这次扩展了更多第三方工具的连接。同时这次更新让你直接把设计系统的源文件喂给 Claude Design。让Claude真正"读懂"你的设计系统三种方式： - 指向你的 GitHub 仓库，Claude 直接读代码里的组件定义（颜色变量、间距常量、组件样式） - 上传 Figma 之类的设计文件 - 直接上传品牌规范文档 Claude 读完之后，生成设计时直接调用你的真实组件，不是自己凭理解去"模仿"。而且在把结果展示给你之前，它会先跑一遍自查，对照你的设计系统检查自己的输出有没有偏离，发现不对的地方自动修正。

译Claude Code 和 Claude Design 打通双向同步：运行 `/design-sync` 可将设计拉取到代码库并基于真实组件构建，使用 `/design` 推回 Claude Design 继续画布编辑。编辑器新增拖拽、缩放、对齐元素功能，可直接修改字体、颜色等细节。导出格式扩展至 PDF、PPTX、Canva、HTML、Claude Code。用户可通过指向 GitHub 仓库（读取颜色变量、间距常量、组件样式）、上传 Figma 设计文件或品牌规范文档三种方式，让 Claude 读取设计系统源文件。生成设计时调用真实组件，并先自查输出是否偏离设计系统，自动修正。

meng shao@shao__meng · 6月18日82

Vercel 开源了他们的 Agent Framework「Eve」 Agent 即目录，生产级能力开箱即用，把反复出现的 Agent 形态抽象成框架，让开发者只写「做什么」，而不是「怎么跑起来」。 https://vercel.com/blog/introducing-eve 核心设计：Agent 是一个目录 agent/ agent.ts # 模型与配置 instructions.md # 系统提示 / 人格 tools/ # 可执行能力 skills/ # 领域知识（Markdown） subagents/ # 子 Agent 委托 channels/ # Slack、Discord 等入口 schedules/ # 定时任务 connections/ # MCP / OpenAPI 外部连接内置的生产能力 · 持久会话：每轮对话是可 checkpoint 的 durable workflow（基于开源 Workflow SDK），可暂停、崩溃/部署后恢复 · 沙箱：Agent 生成代码与主应用隔离；本地 Docker/microsandbox，部署用 Vercel Sandbox，可写 adapter · Human-in-the-loop：工具上设 needsApproval，暂停不占算力，审批后从断点继续 · Connections：MCP / OpenAPI 以文件声明；鉴权由框架代理，模型不接触 URL/凭证；Vercel Connect 处理 OAuth · 多 Channel：同一 Agent 服务 HTTP、Slack、Discord、Teams 等；Channel 间可 handoff · Tracing & Evals：OpenTelemetry 标准 trace；eve eval 可本地或 CI 跑，作部署门禁开发与部署流程 · 本地：eve dev → TUI 可见每步（load_skill、tool call 等）；底层是 HTTP API，CI/脚本也可驱动。 · 部署：vercel deploy，Agent 即普通 Vercel 项目；部署不中断进行中的会话（在启动版本上跑完）。沙箱等通过 adapter 切换，代码不变。 · 接入团队：eve channels add slack 生成 channel 文件；审批在 Slack 里点按钮；schedules/ 用 cron 定时触发（部署为 Vercel Cron Job）。 · 工程化：Agent 进 Git（prompt/工具/skill 都有 diff 和 review）；Preview 部署可提前测 Slack bot；eve eval 进 CI 防回归。 Vercel 内部验证 · d0：月 3 万+ 问数，权限与提问者对齐 · Lead Agent：自主 SDR，年成本约 $5k，回报约 32 倍 · Athena：RevOps 6 周无工程师搭建，接 Snowflake/Salesforce · Vertex：约 92% 工单自动解决 · draft0：内容审阅流水线 · V：路由 Agent，统一入口分发到百级 Agent 舰队

译Vercel 发布开源 Agent 框架 Eve，核心设计“Agent 即目录”：通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话（可 checkpoint）、沙箱隔离（本地 Docker/Vercel Sandbox）、Human-in-the-loop 审批（不占算力）、MCP/OpenAPI 连接（鉴权由框架代理）、多 Channel 支持（HTTP/Slack/Discord）、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI，部署为普通 Vercel 项目，不中断进行中会话。内部已验证：d0 月 3 万+ 查询，Lead Agent 年成本约 $5k 回报 32 倍，Vertex 约 92% 工单自动解决。

ginobefun@hongming731 · 6月18日54

http://x.com/i/article/2067387524339929088 # BestBlogs 早报 · 06-18｜GLM-5.2 开源、AI 化学家、对话闫俊杰在线阅读本期早报 ## 导语智谱 GLM-5.2 今天上线并开源，凭 Solid 1M 上下文把长程编程能力拉进开源模型第一梯队；OpenAI 让 GPT-5.4 与化学实验室协作，近乎自主跑通了一个药物合成关键反应的优化；MiniMax 创始人闫俊杰则在一场访谈里谈到 M3、10X 计划、10T 模型路线图，以及他眼中智能的终局形态。三条主线问的其实是同一个问题：模型到底能不能独立把一件复杂的事情做完，而不只是给出建议——无论是软件工程里的一整个长程任务，还是真实实验室里的一轮科研协作，衡量标准都正在从"说得对"转向"做得完"。除此之外，OpenAI 2025 年财报曝光、Claude Design 品牌一致性升级、淘宝主播 Agent 的 Harness 工程实战、NVIDIA 机器人自主科研系统、A2UI 与 MCP Apps 的融合方案，以及字节跳动 AI 业务的真实账本，共同构成了今天值得关注的全景。 ## 精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务智谱今天正式上线并开源 GLM-5.2，在全球百万用户参与盲测的前端开发评估系统 Code Arena 上，拿到了全球可用模型第一的成绩。这不是一次普通的版本迭代：从 2025 年初开始，智谱几乎把全部力量投入 Coding 攻关，先有 GLM-4.5 打下代码基座，再到 GLM-4.7 成为效果最好的国产 Coding 模型，如今 GLM-5.2 把目标对准了比写代码更难的能力——长程任务，也就是连续数天、数周甚至数月不间断地推进一项工程。支撑长程任务的关键是 Solid 1M 无损上下文。此前业界的 1M 上下文方案大多在超过数百 K 之后就开始劣化，原因是只扩展上下文长度，却没有同步增强 Coding Agent 的训练环境与数据。智谱花了几个月时间专门扩展面向 1M 长度的 Coding Agent 训练环境，覆盖自动化研究、性能优化等多个领域，使 GLM-5.2 在 1M 上下文下的表现保持稳定，部分场景甚至超过 Claude Opus。在 FrontierSWE（衡量 AI 能否像软件工程师一样在数小时尺度完成复杂技术项目）上，GLM-5.2 仅比 Opus 4.8 低 1%，超过了 GPT-5.5 与 Opus 4.7；不过在考察超长自主工程能力的 SWE-Marathon 上，与 Opus 4.8 还有 13% 的差距，说明长程任务的"持久力"仍是下一阶段的重点。最直观的例子是一次实测：GLM-5.2 完成了从开发、联调、测试到打包上线的全流程，独立交付了一个覆盖 Web、移动端与小程序的多端应用，累计处理了近 88 万 tokens，几乎用满整个 1M 上下文窗口。过去这种规模的工程往往需要一支团队协作数周，现在压缩进了一次长程任务里。能力提升背后是架构、推理系统与训练基础设施的协同优化：IndexShare 让相邻稀疏注意力层复用同一个索引器，在 1M 上下文下把单位 token 的 FLOPs 降低到 2.9 倍；改进后的投机解码层把接受长度最多提升 20%。模型 Day 0 就完成了对华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等多家国产算力平台的推理适配，并以 MIT 协议全开源、无地域限制，开发者可以自由下载、部署和商用。在主流编程基准上，GLM-5.2 同样保持开源 SOTA，与 Claude Opus 4.8 处于可比区间：Terminal-Bench 2.1（评测 AI Agent 完成各类计算机终端任务）上比 Opus 4.8 低 4%，但相比上一代 GLM-5.1 提升了 17.5%；在大规模工具调用评测 MCP-Atlas 上，与 Opus 4.8 的差距只有 0.8%。智谱在正式发布前，已经把模型提前开放给数十万 GLM Coding Plan 开发者实测，反馈集中在四点：项目级上下文承载更强，能把完整工程放进同一条推理链路；长程任务执行更稳定，复杂任务不容易跑偏；生产级工程规范遵循更可靠；客户端与移动端工程能力更扎实，能完成真机调试闭环。模型还引入了 effort level（思考档位）控制，方便开发者在能力、速度与成本之间自己取舍。智谱也把目标摆在了 GLM-5.2 之后：下一座要翻越的山是完全自治的智能体系统，让 AI 能够自主驱动、协同作业、7×24 小时运转，团队称之为从"智能助手"走向"数字员工"的转变，但 Memory、持续学习、自我评判等核心技术还需要继续攻关。这条新闻和今天另外两条深读放在一起看会更清楚：当 GLM-5.2 在用长上下文死磕"能不能把一整个工程独立跑完"，OpenAI 的 AI 化学家在用真实实验室验证"能不能独立把一项科研任务跑完"，闫俊杰在访谈里谈的则是"模型变强之后，行业要往哪走"。如果你关心国产大模型在长程任务上的真实进度，这条值得通读全文，尤其是关于 1M 上下文训练方法和 SWE-Marathon 差距的部分。详见：GLM-5.2 上线并开源：专注 Coding 与长程任务。 ## 精讲二：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 这次把 GPT-5.4 接入了 Molecule.one 旗下的智能化学 AI Maria，以及与之配套的高通量实验室，给了它一个开放式目标：改进药物合成中常用的几类关键反应之一。系统自己提出研究方案、设计并执行实验、分析数据，再提出下一轮实验建议；人类化学家的角色是设计引导与评分提示、挑选要测试的方案、对实验计划做有限修正，并独立验证最终结果——OpenAI 把这种模式称为"近乎自主"，而不是"完全自主"。最有价值的方案聚焦在 Chan-Lam 偶联反应的一个高难度版本上，这是化学家用来构建碳氮键的常用反应。GPT-5.4 从"改进 Chan-Lam 偶联反应"这个开放目标出发，自己识别出原代磺胺类底物是一类难度高但价值大的反应对象，并提出用 TEMPO 等温和氧化剂来提升反应表现。在 Maria 实验室的两轮实验中，这个想法被验证有效：优化条件下，88% 的硼酸底物和 83% 的磺胺底物产率都有提升，平均产率从 16.6% 升至 25.2%，产率超过 30% 的反应占比从 15.6% 提高到 37.5%。这一轮实验总共跑了 10080 次反应，相当于一名化学家每天做三个实验、连续十年才能积累的实验量。更关键的是，这个结果没有止步于微升级实验室的筛选数据。人类化学家随后在台架规模上重复了具有代表性的反应，结果证实了微升级实验的结论：14 组底物对中有 11 组产率提升，大多数还翻了一倍以上。这一点很重要，因为药物化学家需要的是能在真实实验室工作流程中复现的反应，而不只是在微升筛选里好看的数字。磺胺基团出现在抗癌药、抗菌药、利尿剂等多个治疗领域的药物里，但原代磺胺与硼酸的 Chan-Lam 偶联历史上产率一直偏低，这次的改进有机会让药物化学家获得一条更可靠、更实用的分子合成路径。这次合作也延续了 OpenAI 在科学领域的一条长期主线：此前模型已经在数学（单位距离问题的反例）、理论物理（胶子振幅的新结果）和生物学（GPT-5 帮助降低无细胞蛋白合成成本）上贡献过具体成果，OpenAI 还推出过专门面向生命科学研究与药物发现流程的模型 GPT-Rosalind。这次和 Molecule.one 的合作把这条主线延伸到了药物化学这个特别依赖实验验证、而不能只靠推理的领域——一个假设必须真的在分子、仪器和实验噪声构成的真实世界里站得住才算数。整个项目历时三个月，期间四位外部化学专家审阅了描述这一结果的预印本，认为结论新颖、值得与科学界分享，同时也指出更强的检验将来自后续在更大规模合成中的复现。OpenAI 也坦言这只是一个早期结果，但它为"AI 能不能成为科研全流程的真正合作者"提供了一个具体例证。把这条新闻和精讲一放在一起读会有意思的对照：GLM-5.2 验证的是模型在软件工程领域的长程自主能力，AI 化学家验证的则是模型在物理世界、需要真实实验验证的科研场景里的自主能力——后者更难，因为假设必须在分子、仪器和实验噪声构成的真实世界里站得住。如果你对 AI 与科学发现的结合感兴趣，这篇值得细看实验规模与产率数据部分。详见：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应。 ## 精讲三：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局上周六的 MiniMax Dev Meetup 上，创始人兼 CEO 闫俊杰（IO）参加了一场圆桌对话，同台的还有 Multica 创始人张佳圆、DeerFlow 核心负责人何涛，以及一家上市金融公司的技术负责人虞扬。这篇文章是现场对话的完整实录，信息密度很高，但最值得抓住的是闫俊杰关于模型路线和智能终局的几段判断。谈到从 M1 到 M3 的进展，闫俊杰用通用消耗量作为客观指标回顾：M1 效果其实不够好，但团队在那时第一次跑通强化学习，体验到了"后背发凉"的震撼；M2 原计划做到日消耗一亿 token 就满意，结果在 M2.7 跑出了超出预期 10 倍的消耗量。到了 M3，目标更激进——让用户可以无限制、不计成本地用上 Sonnet 和 Opus 级别的模型，闫俊杰说团队"现在已经非常接近这个临界点了"。一旦达成，叠加行业大盘的增长，通用消耗量会进入一个全新量级。他也坦言 M2 阶段两个没达预期的目标：多模态没做成、模型没能在编程场景里直接充当主引擎；但 M2 后来意外地在 OpenClaw 等各种 Agent 生态里找到了自己的位置，这也是闫俊杰反复强调"行业生态比单点能力更重要"的一个例证。座谈中提到的上月启动的 10X 计划，邀请网络安全、金融、法律等垂直领域专家深度参与模型打磨，目的是让模型能力真正贴合专业场景的实际需求，而不是停留在通用对话层面。再往后看，闫俊杰提到下一步要攻克 10T 参数规模的模型——他直言国内模型的规模比美国同类模型小一个数量级，需要先把 3T 规模做实，再向 10T 迈进，而最大的卡点不是物理瓶颈，是工程积累。这与精讲一里 GLM-5.2 强调的"训练基础设施协同优化"形成呼应：扩规模和提升长程任务能力，本质上都在比拼同一类工程硬功夫。同台嘉宾的发言也很有参考价值。Multica 创始人张佳圆谈到，团队不再寄希望于单一模型的完美，而是尝试设计一个系统，把不同模型、不同 Agent 的能力聚合起来，比如让 M3 做 Coding，同时引入 Opus 或 GPT 这类模型做 Review 或当"导师"，在 token 消耗和产出质量之间找平衡——这其实和今天补充阅读里 OpenRouter Fusion 的多模型合议思路是同一个方向。DeerFlow 核心负责人何涛分享了开源项目如何用中国模型把 Deep Research 这类原本昂贵的能力价格打下来，目前已有超过 1000 名贡献者参与。金融公司技术负责人虞扬则谈到，AI 在金融场景里真正的价值不只是帮用户过滤信息，更要降低专业理解的门槛——不仅要告诉用户一个指标是多少，还要告诉用户这个数字对其投资决策意味着什么。对智能的终局，闫俊杰的判断是端到端交付结果，而不是给出建议——让模型直接修复漏洞、直接做出金融决策，这与精讲二里 AI 化学家"近乎自主"地跑完一整轮研究流程，方向是一致的。如果你只有时间挑一段精读，建议读到闫俊杰谈 M3 临界点和 10T 模型卡点的部分。详见：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局。 ## 速览独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。Ed Zitron 拿到了 OpenAI 2024 与 2025 年的审计财报，披露 2025 年收入为 130.7 亿美元，成本却高达 340 亿美元，其中 8.67 亿美元来自软银投资、3.03 亿美元来自微软。这组数字第一次把 OpenAI 真实的盈亏结构摆在公开视野里，和今天关于字节 AI 账本的报道放在一起看，能感受到整个行业在算力成本和商业化之间的紧张关系。详见：独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。 Claude Design 日常工作中更稳定地保持品牌一致性。Claude Design 现在能跟项目里的设计系统保持一致，可以从 GitHub 仓库、设计文件或原始上传中导入一个或多个设计系统，与 Claude Code 之间的协作也更顺畅，支持直接在画布上编辑，并新增了管理员角色来锁定团队设计规范，方便大团队统一品牌标准。官方数据显示上线第一周就有超过一百万人使用 Claude Design，这次更新主要是把早期反馈转化为更稳的日常使用体验。详见：Claude Design 日常工作中更稳定地保持品牌一致性。更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。文章系统拆解了在直播这种高压力场景下，如何用执行循环、工具注册、上下文管理、状态存储、生命周期钩子和评估接口这六个维度，把不确定的模型能力工程化成一个真正可用、可控、能持续演化的生产系统。直播场景的特殊之处在于操作即时生效且面向公众、主播注意力极度稀缺、多话题高频交织、会话动辄持续数小时还要支持中断后精确续连，这让 Harness 工程的要求比"个人助手"形态严苛得多。文章还提出框架层与业务层要划清责任边界：业务方只需要以 Skill 的形式声明能力和风险等级，剩下的安全防护、状态持久化、可观测性全部由框架兜底，是一篇少见的来自真实高压业务场景的工程实践总结。详见：更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。 NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。由 Jim Fan 联合领导的 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 推出 ENPIRE 系统，首次在物理世界里实现了 AI 自主科研的完整闭环：一组 AI 编程 Agent 自主管理机器人集群、GPU 资源和 token 预算，自动完成环境搭建、策略改进、真实机器人实验和失败分析迭代，人类只需要看报告。项目测试了 OpenAI Codex、Anthropic Claude Code 和月之暗面 Kimi Code 三款 Agent，并发现了"物理 scaling law"：8 台机器人并行探索的效率明显高于 1 台或 4 台。详见：NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。 A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。来自 Google Developers Blog 的文章提出三种架构模式，把 A2UI 的声明式原生渲染界面和 MCP Apps 基于 iframe 的自定义界面结合起来，试图同时拿到安全性、性能与视觉一致性。文章详细给出了实现指南和示例代码，是目前少见的把两套智能体 UI 范式系统对比并融合的实践方案。详见：A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。当你的 AI 智能体扩展互相争斗时。这是 Microsoft for Developers 一个系列的第四篇，讨论一个容易被忽视的问题：单独测试时表现良好的 AI 编程智能体扩展，装在一起之后反而会让整体效果变差，因为扩展之间会争夺上下文窗口空间和模型注意力，引发语义冲突或资源竞争。文章提供了一套衡量和缓解这类组合问题的实用框架，对正在开发或维护多个 Agent 扩展的团队很有参考价值。详见：当你的 AI 智能体扩展互相争斗时。字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。《晚点 LatePost》独家披露字节跳动 AI 业务的真实财务数据：日活超 2 亿的豆包每天收入不足百万元，主要靠电商佣金，但豆包应用每天消耗的算力成本已达数千万元，仅维持豆包正常运行的花费就超过了整个 Bilibili 的经营成本。相比之下，视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%，单月收入超 10 亿元，几乎抵消了豆包的算力成本。文章透露字节高层两个月前到访 Anthropic 后，开始把 AI 资源重心从豆包这类大众产品转向服务企业的产品，大模型数据审核团队今年也从约 1500 人扩到 3000 多人，专门为编程模型清洗训练数据。详见：字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。 ## 补充阅读面向 Skills 编程：淘宝企业购端对端研发提效实践——提出把领域知识、工作流和约束规则封装成可版本化的 Skills 单元，让 LLM 在确定性框架内生成代码，实测交付周期缩短 65%。适合关注企业级 Agent 工程化落地的读者。详见：面向 Skills 编程-淘宝企业购端对端研发提效实践。 OpenRouter Fusion：从模型路由到复合智能栈——分析 OpenRouter Fusion 如何把多模型合议封装成 API 原语：同一个问题并行发送给一组模型面板，每个模型独立分析，再由 judge 模型产出共识、分歧、覆盖盲区等结构化审议结果，外层模型基于这份报告写出最终答案。这标志着 LLM 应用架构从单模型调用走向复合推理编排，核心价值不是更便宜地调用最强模型，而是用额外的推理时计算换取更高质量和更强的分歧诊断能力。适合关心多模型协同架构设计的读者，也可以和精讲三里张佳圆谈到的多模型系统拟合实践对照着读。详见：OpenRouter Fusion：从模型路由到复合智能栈。大疆还能低空飞多久？——深度拆解大疆如何靠无人机和云台相机两大品类定义实现年利润超 200 亿，从产品矩阵、第二增长曲线、全球化能力和组织风险几个角度分析它在地缘政治、新品类拓展和人才流失上面临的挑战。适合关注中国硬件出海与品类竞争的读者。详见：大疆还能低空飞多久？。 Cursor，为什么上了马斯克的飞船？——报道 SpaceX 以 600 亿美元全股票交易收购 AI 编程公司 Cursor 母公司 Anysphere，梳理交易背景、Cursor 的创业历程及其与 Anthropic 的竞合关系。适合关注 AI 编程赛道格局变化的读者。详见：Cursor，为什么上了马斯克的飞船？。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，精讲一的 GLM-5.2，了解开源模型在长程编程任务上能做到什么程度，重点看 1M 上下文的训练方法和实测中独立交付多端应用的例子；第二，精讲三对话闫俊杰，理解头部大模型公司怎么看待规模、生态与智能终局，重点看 M3 临界点、10X 计划和 10T 模型卡点这几段判断；第三，精讲二的 AI 化学家，看看自主智能从代码世界延伸到真实实验室之后是什么样子，重点看产率数据和台架验证部分。三篇连起来读，正好是今天"模型能不能独立把事情做完"这条主线在软件工程、行业生态、科学发现三个领域的不同切片。如果还有余力，再补两篇：一篇是字节跳动的 AI 账本，从商业化的角度回看这条主线背后的真实代价——豆包的算力成本有多高、Seedance 的企业服务有多赚钱；另一篇是淘宝主播 Agent 的 Harness 工程实战，从工程落地的角度看一个真实高压场景里，模型能力是怎样被一步步约束成可控、可观测的生产系统的。这五篇加在一起，基本能拼出今天 AI 行业从模型能力、行业生态、商业化到工程落地的完整链路。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

Chubby♨️@kimmonismus · 6月18日58

Email is one of the last martech layers still stuck in its own dashboard while the rest of the stack moved into the agent. Nitrosend is a bet that it doesn't have to be: one MCP install and the whole email layer runs from inside Codex, Claude, or ChatGPT. The signal worth noting is the team behind it, the Hartley brothers, who built SmartrMail into a platform that sent billions of emails before selling it in 2022.

译Nitrosend 通过一次 MCP 安装，让邮件系统直接在 Codex、Claude 或 ChatGPT 内部运行，彻底摆脱传统仪表盘。其团队 Hartley 兄弟曾创立 SmartrMail，发送数十亿封邮件并于 2022 年出售。他们认为仪表盘曾是瓶颈，而非产品本身，Nitrosend 正是移除这一瓶颈的产物。

AYi@AYi_AInotes · 6月18日76

被 vibe coding 反噬过的AI玩家和开发者们看过来，这个工具包把 Token 消耗砍掉了 63%，注意可不是单纯的砍功能，主要是砍废话。 @mattpocockuk Pocock（Total TypeScript 作者，前 Vercel）把资深工程师开工前的肌肉记忆拆成了可触发的技能——/ask-matt，就好像他本人站你身后一样，你扔任务进去，它先推荐该用哪个技能，再让 AI 按流程走，需求拷问、领域建模、TDD 红绿，每一步都有纪律。 v1 版更狠的地方是 AI 可以自己判断时机触发技能，你不用盯着喊停，有点像个老钳工把动手前先划线灌进了 AI 的身体里。现在有人把 prompt 当咒语攒，有人把 prompt 当流程拆，v1属于后者。开源在 GitHub，链接放评论区啦～

译Matt Pocock（Total TypeScript 作者）开源了 skills v1，将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用，新增 /codebase-design、/domain-modeling、/grilling 三项技能；重写 /writing-great-skills；将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用；新增 /ask-matt 路由技能，帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

elvis@omarsar0 · 6月17日42

eve looks like a very promising agent framework. Built-in: - Durable execution - Sandboxed compute - Human-in-the-loop approvals - Subagents - Evals - and more I like the emphasis on evals right away. Should I do a tutorial on it?

译eve 看起来是一个非常值得期待的智能体框架。内置： - 持久执行 - 沙箱计算 - 人工介入审批 - 子智能体 - 评估（Evals） - 以及更多我很欣赏它一开始就强调评估。我是否应该做个教程？

Rohan Paul@rohanpaul_ai · 6月17日61

Every workflow is now shifting toward AI agents. Nitrosend just made agent-powered email automation. It lets Codex, ChatGPT, Claude, Cursor, Gemini, or any MCP agent build and send branded email campaigns from one prompt. It continously learns from sends, so subject lines, timing, and content can improve from a company’s own data instead of generic email advice. As I run my own newsletter, I know nobody enjoys setting up email flows. Now email can live in Codex. I don't leave, I don't switch tabs, I just type what I need and keep working. Here's an example, just one prompt in ChatGPT

译Nitrosend 推出基于 AI 智能体的邮件自动化工具。它允许 Codex、ChatGPT、Claude、Cursor、Gemini 或任何 MCP 智能体通过一个提示词构建和发送品牌邮件活动。系统会持续从发送数据中学习，自动优化主题行、发送时机和内容，而非依赖通用建议。引用@gthartley 称，传统邮件仪表盘运行了二十年，但仪表盘本身就是瓶颈——Nitrosend 移除了它。

meng shao@shao__meng · 6月17日60

在你的 Coding Agent 里切换任意模型推荐 @Jason_Young1231 的开源项目「CC Switch」 https://github.com/farion1231/cc-switch Github 103K ⭐️，远高于原作者的 X 关注数量，这不合理，关注 CC Switch 的朋友们，关注起来！

译邵猛推荐 @Jason_Young1231 的开源项目 CC Switch，GitHub 获 103K 星。该项目解决 OpenAI Codex Responses API 与多数第三方 API Chat Completions 接口不兼容的问题，使更多模型可在 Codex 中直接使用，完全开源免费。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日54

Nitrosend has launched an AI-native email platform that users can run from within Codex, ChatGPT, Claude, Cursor, or any other MCP agent. It can create newsletters, transactional messages, and branching sequences, all in editable markup. Vibe emailing 👀

译Nitrosend 推出了一个 AI 原生邮件平台，用户可在 Codex、ChatGPT、Claude、Cursor 或其他 MCP agent 中运行。它可以创建新闻邮件、事务性消息和分支序列，全部采用可编辑标记。 Vibe emailing 👀

meng shao@shao__meng · 6月17日68

OpenAI Codex 中三种操作电脑能力：Computer Use、Chrome Extension 和 in-app Browser 分别怎么用？ Codex 团队 @jxnlco 这篇文章强烈推荐阅读： 1. @ Browser：线程内隔离浏览器 · 用于本地开发、视觉调试、设计迭代 · 无登录态、无扩展 2. @ Chrome：你的真实 Chrome 身份 · 多标签、已登录 SaaS、跨站工作流 · 操作算你的，敏感度高 3. @ Computer：整台桌面 GUI · 原生 App、系统设置、无 API 流程 · 最慢、信任面最广 # 展开看看怎么选、怎么用 1. @ Browser — 线程内隔离，专做 Web 开发是什么：线程内浏览器，你与 Codex 共享同一页面，适合 build/debug。何时用： localhost、单文件预览、公开页、响应式/视觉 Bug、元素标注改设计。约束：无 Cookie/扩展/登录态——要 Google 登录或依赖扩展 → 换 Chrome。亮点：改代码 <-> 看页面闭环极短；标注即规格。可先 Browser 定上下文，再 CLI/API 深抓。触发： Plugins → Browser；对话 @ Browser。 2. @ Chrome — 你的 Chrome 身份 + 多标签是什么：访问已登录 Chrome：Cookie、扩展、已有标签。何时用： Gmail、Salesforce、内部 Dashboard 等需账号的 Web；多标签对照（客户页 vs 工单页）；页面有 WebMCP 时可结构化 + 浏览器上下文。 vs Computer：浏览器任务优先 Chrome——理解 DOM/标签，不是点坐标。触发： Plugins → Chrome → Connected → 新线程；对话 @ Chrome。边界：操作视同本人；页面内容不可信。可自动研究/草稿，发送/购买/提交须人工确认。 3. @ Computer — 桌面 GUI，最广最慢是什么：通过窗口、菜单、键盘、剪贴板操作已授权的 macOS/Windows 应用。何时用：无 API 的原生 App、系统设置、模拟器/iPhone 镜像、跨 App 串联，或结构化工具差「最后一步 UI」（如 Slack 不能上传文件）。代价：视觉循环慢（看屏 → 点击 → 等响应 → 再看），但 macOS 上常可后台跑。触发： Settings → Computer Use → Install；对话 @ Computer。边界：信任面最大。一次一个 App/流程；敏感 App 不用即关；涉及账号、支付、安全须人在场审。 Appshots：第四种误解 Appshots 不是第四种控制方式，而是把当前上下文指给 Codex： · Mac 上双 Cmd 捕获最前窗口（非整屏） · 附带图像与可用文本进线程 · 只给上下文，不给控制权记忆法：Appshots = 指向；Browser / Chrome / Computer = 行动。决策框架（可写进 AGENTS.md） 1. 有插件/MCP/API 且能覆盖任务？ → 用结构化工具 2. 本地 dev / 无登录 / 视觉调试 / 设计标注？ → @ Browser 3. 需要已登录 Chrome、多标签、SaaS 控制台？ → @ Chrome 4. 原生 App、系统设置、模拟器、跨 App、API 缺失的最后一步？ → @ Computer 5. 只想让 Codex 看见某窗口、不必操作？ → Appshot（双 Cmd）三个典型故事背后的模式 1. Amazon 退款： Computer Use + 定时轮询 + 状态切换（5 分钟 → 1 分钟）—— 无 API 的长等待客服流。 2. Slack 发视频：结构化读 Slack + 改代码 + 渲染，Computer Use 只补「上传文件」—— 结构化为主，视觉为最后一步。 3. Strudel / Twitter： Chrome 或 Browser 建立上下文，页面工具或 CLI 做重活—— 界面定意图，工具做深度。

译OpenAI Codex 提供三种操作电脑能力：@ Browser（线程内浏览器，用于本地开发、视觉调试，无 Cookie/扩展/登录态，触发 Plugin → Browser），@ Chrome（真实 Chrome 身份，多标签、已登录 SaaS，操作算本人，触发 Plugin → Chrome），@ Computer（桌面 GUI，操作已授权 macOS/Windows 原生应用，最慢但信任面最广，触发 Settings → Computer Use）。Appshots（双 Cmd）只给上下文不给控制权。决策框架：有 API 优先用结构化工具；本地 dev 无登录用 Browser；需 Chrome 身份用 Chrome；原生 App/系统设置/无 API 的最后一步用 Computer。

Berryxia.AI@berryxia · 6月17日71

我靠，这个爽啊～兄弟们 Firecrawl直接把API key门槛砍了，现在不用注册就能直接搜网页、爬页面、解析PDF，Agent开发终于能低成本，高效开发了。今天开始，你可以直接用他们的endpoint搜索、抓取任意网页内容，还能把PDF转成干净的markdown，完全不用setup。想先试就直接用，规模大了再注册也不迟。同时支持MCP、CLI和API三种方式。以前做agent最烦的就是数据获取要先注册、拿key、处理限流，现在直接零门槛上手。网页内容、PDF解析这些基础能力一键可用，开发者可以把精力真正放在agent逻辑和业务上，而不是先搞定工具链。这波操作把“先用再说”的理念做到了极致。很多agent项目卡在数据层，现在这个门槛被大幅降低，实验和原型速度能快不少。开源和免费试用正在成为新常态，工具类服务也开始卷体验而不是先卷付费墙。以前大家觉得API产品总要先圈用户，现在Firecrawl用实际行动证明：真正好的工具，是让开发者先跑起来再说。

译Firecrawl今天起取消API key门槛，无需注册即可免费使用搜索、爬取任意网页及PDF转markdown功能。支持MCP、CLI、API三种方式，直接使用endpoint，规模大了再注册。这大幅降低了Agent开发中数据获取的门槛，免去注册、拿key、限流等步骤，开发者可聚焦业务逻辑。

swyx@swyx · 6月17日50

gentle irony that SpaceXAICursor, on its very first day of existence, announced a product that is a blue Origin (right after @JeffBezos announces Prometheus)

译Cursor/Graphite 的 TomasReimers 刚刚宣布了 Origin，这是 @cursor_ai 期待已久的 Git 竞争对手，可针对 agent 工作负载进行扩展，可通过 API 和 MCP 扩展，并内置合并冲突和协同故障 agent 解决功能。颇具讽刺意味的是，SpaceX/AI/Cursor 在成立第一天就发布了一个“蓝色起源”产品（就在 @JeffBezos 发布 Prometheus 之后）

swyx@swyx · 6月17日54

Cursor/Graphite’s @TomasReimers just announced Origin @cursor_ai’s long awaited Git competitor, scalable for agent workloads, extensible with api and mcp, and built in merge conflicts and co failure agent resolution

译Cursor/Graphite 的 @TomasReimers 刚刚宣布了 Origin，这是 @cursor_ai 期待已久的 Git 竞争对手，可扩展用于 AI 智能体工作负载，可通过 API 和 MCP 扩展，并内置了合并冲突和协作失败智能体解决方案。

Rohan Paul@rohanpaul_ai · 6月16日61

"I don't prompt Claude anymore. I write loops and the loops do the work. My job is to write loops." - Boris Cherny, creator of Claude Code. @withneo 's newly launched MCP server gives Claude Code a local AI engineering worker through neo-mcp. It lets Claude Code hand off complex AI/ML tasks to Neo, which can implement code, run experiments, evaluate results, debug failed runs, and return the full execution trail. I.e. Claude Code talks to you, Neo does the longer ML work. In one benchmark, Claude Code + NEO cut task cost from $1.96 to $0.74, made runtime 37% faster, and switched the backend from PyTorch to ONNX Runtime for CPU-optimized execution. Connect Claude Code, Cursor, VS Code, and other MCP clients to NEO. The editor stays in control of the conversation. NEO does the AI engineering. So Neo becomes the execution layer for AI engineering work. Claude Code hands off the task. Neo plans, runs experiments, monitors progress, evaluates results, and returns the trail: transcripts, files, metrics, reports, or repo changes. That feedback loop matters. Instead of burning Claude Code’s limited iterations babysitting long-running tasks, Claude can use Neo’s MCP tools to check status, pause, resume, inspect the trail, or ask for input at decision points. Claude stays focused on decisions, not execution noise.

译Boris Cherny（Claude Code 开发者）表示不再手动提示 Claude，而是编写循环让循环工作。@withneo 新发布的 MCP 服务器 neo-mcp 为 Claude Code 配备了本地 AI 工程工人 Neo。Claude Code 可将复杂 AI/ML 任务委托给 Neo，由其实现代码、运行实验、评估结果、调试失败运行并返回完整执行轨迹。在基准测试中，Claude Code + NEO 将任务成本从 $1.96 降至 $0.74，运行时间缩短 37%，并将后端从 PyTorch 切换为 ONNX Runtime 以优化 CPU 执行。该 MCP 服务器支持连接 Claude Code、Cursor、VS Code 等客户端，编辑器控制对话，Neo 负责执行，Claude 专注于决策而非执行噪音。

AYi@AYi_AInotes · 6月16日55

http://x.com/i/article/2066860172387995648 # 所有深度用 AI 编程的朋友，这篇 Codex 全景指南值得存好，架构生态横评和最佳实践一次讲透有个细节我琢磨了好几天，OpenAI 给 GPT-5.3-Codex 下的官方定语很有意思，没有说是最强编程模型，而是一句有点耐人寻味的话——第一个对创造自身起到关键作用的模型。我翻译一下：OpenAI 自己的工程师，已经在用 Codex 来造下一代 Codex 了。我觉得这句话比任何 benchmark 都狠，它告诉我们，除了这个模型有多强，还有就是这个模型已经成了 OpenAI 自己的研发底盘。也就是说2021 年那个被弃用的补全工具、去年那个帮你改 bug 的助手——跟现在这个比，根本不是一个物种。我决定写一个系列，这是第一篇。这篇不讲具体操作，先把全景图铺开：它的架构到底长什么样、核心能力在哪、跟 Claude Code / Cursor / Devin 比谁更能打、官方给的最佳实践有什么能直接抄。后面几篇再一个一个拆——AGENTS.md、Skills、MCP、多 Agent 编排的实操。 > ▸ 五个入口，一套配置——先搞懂这个，后面才不会晕 > ▸ 插件化 + MCP + Skills：这才是它跟别人拉开身位的地方 > ▸ 为什么我说它是目前最强执行引擎（附一张对比表，也说说它的软肋） > ▸ 七条能直接抄的官方最佳实践 ## 一、先搞懂架构——一套执行层，长了五张脸我第一次把 2026 版 Codex 的所有入口捋了一遍之后，才明白为什么很多人刚接触会懵，因为它同时出现在五个地方：App、CLI、IDE 插件、Cloud、Web。所以这不只是五个产品那么简单，更像是是一套统一执行层 + 编排中枢，长了五张脸。 Codex App：桌面命令中心，macOS 版，今年最大的形态变化。定位很明确——AI 编程的指挥中心，你可以在里面并行跑活、管长时任务、加 skills 和 automations、审查 diff，全程沙箱保安全。为什么今年才出桌面端？OpenAI 自己的解释我挺认同的——2025 年 4 月 Codex 刚出的时候，问题还是“agent 能干什么”；到了今年，模型能端到端处理复杂长时任务了，问题变成了“怎么同时管好一堆 agent”。那问题变了，界面就得跟着变。 CLI + IDE 插件：终端和编辑器里的深度集成，这里有一个细节我踩过一次坑才注意到——它们共用同一份配置，在一个表面改了 config，另一个表面立刻生效，不用各配一遍 MCP，很细节的一件事，但挺省心的。 Cloud Sandbox：异步执行的核心。长时任务、并行工作全挂云上，不占你本地资源，跑完进审查队列。 Web / ChatGPT 集成：统一登录，所有表面共享 Skills、MCP 配置、AGENTS.md 记忆。模型底座：这条时间线值得看一眼，因为一年里迭代太密了： 2025 年 12 月 GPT-5.2-Codex → 2026 年 2 月 5 日 GPT-5.3-Codex → 2 月 12 日 GPT-5.3-Codex-Spark（纯文本、低延迟小号版） → 3 月 5 日 GPT-5.4 for Codex。其中 Spark 那步我特别想提一嘴——它是 OpenAI 第一个跑在 Cerebras 硬件上的生产模型，比早期 Codex 快 15 倍，专门为实时交互编码做的。这步棋的意义不是“更快了”，是“可以一边聊一边出代码了”。把这五张脸看完，我的理解就一句话：Codex 把“模型”和“编排”分开了。模型负责干活，App/Cloud 负责调度，学 Codex，我理解本质上是在学怎么当一个管着好几个 agent 的项目经理。 ## 二、插件化 + MCP + Skills——这三层才是真正的分水岭光看模型能力，Codex 跟别家在一个量级。真正让它跟传统工具拉开差距的，是它长成了一个可扩展、可复用、可编排的平台层，三层东西撑起来的。 MCP：把外部世界接进来配置不复杂。每个 MCP 服务器在配置文件里一张 [mcp_servers.<server-name>] 表，支持两种传输——本地 STDIO 进程，或者远程 Streamable HTTP（走 HTTP 连远程，可选 OAuth 和 bearer token 认证）。 CLI 一行加一个。比如接 Context7（免费开发者文档 MCP），跑这个就行：codex mcp add context7 -- npx -y @upstash/context7-mcp。配置文件默认 ~/.codex/config.toml，想限定到某个项目用项目级的 .codex/config.toml——但只限受信任项目。热门的有 GitHub、Figma、Playwright、Context7、Sentry 这些。有一点我想强调，官方隐含了一个最佳实践：高频痛点优先接，别把线全布上。 MCP 接得越多，上下文消耗越大，风险面也越宽。够用就行，别贪。 Skills：把重复劳动变成能复用的东西一个 skill 就是把指令、资源和可选脚本打个包，让 Codex 可靠地跑一个工作流。Skills 基于开放的 agent skills 标准。本质就是一个目录，核心文件是 SKILL.md。可以加 agents/openai.yaml 配 UI 元数据、调用策略、工具依赖。 Skill 和 AGENTS.md 的分工，官方说得很清楚，这条特别值得记：每次对话都要发给模型的指令，放 AGENTS.md；只在特定操作时才需要的指令，放 SKILL.md。这个分离能让上下文更聚焦。 Plugins：把上面这些打成一个能分发的包今年新出的一层，Codex plugins 是可复用的包，把 skills、app 连接器和 MCP 服务器捆成一个可安装单元。官方的思路是这样：Skills 是创作格式，Plugins 是安装分发单元。你先用 skill 设计工作流，稳定了，再打包成 plugin 给别人装。 Codex CLI v0.117.0（2026 年 3 月 26 日）把 plugins 提成了一等工作流原语，首发了 20 多个一方集成：Slack、Figma、Notion、Gmail、Google Drive、Cloudflare 等。注意是 20+，不是网上传的 90+——别被夸大的数字带偏了。这三层叠起来，才是 Codex 区别于“一个聊天框”的本质：你能把团队的最佳实践固化成标准，一键分给所有人。 ## 三、为什么我说它是目前最强执行引擎——但也别神化把 Codex 放到 Claude Code / Cursor / Devin 里横着看，它的优势我概括成五个词：云沙箱、异步委托、并行速度、生产力工具集成、审查执行分离。到这里你可能觉得我要开始吹 Codex 全面碾压了。其实并不会，我得先泼点冷水，因为这篇不是软文，是干货。 Codex 还不是全面碾压，几件事得说清楚：第一，SWE-Bench Pro 上它只是微弱领先 GPT-5.3-Codex 在 SWE-Bench Pro Public 上 56.8%，对比 5.2 的 56.4%——是守住了顶尖梯队，不是阶跃。真正大涨的是终端任务和电脑操作：新模型在 OSWorld-Verified 上几乎翻倍，SWE-Bench Pro 和 Terminal-Bench 都刷了新高。OSWorld 上人类水平大约 72%，它跑到 64.7%，已经很接近人了。第二，对手没闲着 Anthropic 今年 3 月 24 日上了 macOS 桌面控制，OpenAI 三周后的 4 月 16 日才跟进。更值得注意的——4 月 14 日，OpenAI 发布前两天，Anthropic 抢先发了重新设计的 Claude Code 桌面 app，带并行会话和能通过 API 或 GitHub 事件触发的自动化 Routines。Claude Code 在 Opus 4.6 beta 上那 100 万 token 上下文窗口，在大型代码库推理和多文件重构上是实打实的优势。所以我自己琢磨下来的判断是：Codex 最强的不是“想”，是“干”和“并行调度”。它是目前最强的执行与异步编排引擎，但深度推理和超大上下文重构，Claude Code 仍有一手，最佳实践其实是混着用的，这点我会放到系列后面专门写一篇。 ## 四、能直接抄的七条官方最佳实践这部分含金量最高，全部来自 OpenAI 官方 best practices，我挑出七条能立刻上手的。官方对 Codex 的定位有一句话，先记住：把 Codex 当成一个需要长期配置和打磨的队友，不是一个一次性助手。 1. Prompt 结构盯住四个东西： Goal（目标）+ Context（上下文）+ Constraints（约束）+ Done-when（完成标准）。复杂任务先开 plan mode。 2. 用 AGENTS.md 固化“持久指令” 官方的思路很清楚：从正确的任务上下文开始，用 AGENTS.md 做持久指引，配 Codex 匹配你的工作流，MCP 连外部系统，重复工作变 skills，稳定工作流自动化。支持层级覆盖——全局放 ~/.codex/AGENTS.md，项目从根目录开始，越靠近当前目录优先级越高。 3. AGENTS.md 保持精简这是新手最容易踩的坑。Codex 会把整个 AGENTS.md 加载进会话上下文，多余信息既浪费 token，又干扰结果。还有个反直觉的点：运行中改了 AGENTS.md，要重启或开新会话才会生效。 4. 别迷信自然语言约束官方自己也很坦诚：这是自然语言，模型很擅长理解你的要求，但不保证一定遵守。要更硬的控制，用 config.toml、rules、sandboxing 和审批设置。社区实测也印证了——光靠 AGENTS.md 指令遵守率只有 25-40%，做成运行时 hook 强制执行能到 95%。真正危险的操作——生产部署、删库、改凭证——别指望 prompt，用 execpolicy 和沙箱权限从根上锁死。 5. 永远要求验证让它写测试、跑 lint、用 /review。官方提了一个团队级的好模式：如果你和团队有 code_review.md 文件，在 AGENTS.md 里引用它，Codex 审查时也能照着那套指引走。 6. 推理档位别无脑拉满官方推荐 medium 作为平衡智能和速度的全能档。Codex 能自主工作数小时搞最难的任务，最难的时候才用 high 或 xhigh。无脑拉满只会更慢更贵。 7. 形成闭环把重复工作做成 Skill，稳定了打包成 Plugin 分发，事后复盘回写 AGENTS.md。这是一个 Kaizen 闭环——用得越久，你的 Codex 越懂你的项目。 ## 写在最后最近玩下来，我自己的感受是：2026 年的 Codex，最大的价值不是它又刷了几个 benchmark，是它真的把 agentic 编程从单点工具变成了可编排的平台层——云原生并行 + 插件化扩展 + 统一多表面 + 企业级集成。我觉得它倒不是来取代 Claude Code 或 Cursor 的，更准的说法是，它成了目前最强的执行与异步编排引擎。 Claude 的推理深度、Cursor 的 IDE 体验、Codex 的并行执行，三个其实是互补的。但平台再强，也得你会用是吧，所以这个系列接下来一篇一篇拆——下一篇从 AGENTS.md 开始，把“怎么写一个不浪费 token 又真能管住 agent 的指令文件”讲透。这一篇先到这，有具体想先看哪块——MCP 实战配置、Skills 编写、多 Agent 编排、还是混合栈怎么搭——评论告诉我，我调后面顺序。

译OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口，模型迭代至GPT-5.4 for Codex，Spark版快15倍。平台层由MCP、Skills（开放标准）、Plugins（可分发）构成。SWE-Bench Pro Public上56.8%微弱领先，OSWorld-Verified 64.7%接近人类；Claude Code在百万token重构占优，Codex强在异步执行与并行调度。最佳实践：Prompt含Goal/Context/Constraints/Done-when，用AGENTS.md固化持久指令，MCP按高频痛点优先配置。

meng shao@shao__meng · 6月16日60

LandingAI 把 Agentic Document Extraction 从「API 文档 + 手写脚本」升级成 Agent Skills ——让 Codex、Claude Code、Cursor 等 Coding Agents 在对话里直接写出可用的文档处理流水线 http://github.com/landing-ai/ade-document-processing-skills # 两个 Skill 的分工 1. document-extraction — 原子操作 · Parse：结构化 Markdown + 层级 JSON · Extract：JSON Schema / Pydantic 字段抽取（发票、表单、表格等） · Split：混合批次按文档类型拆分 · Classify：按页分类路由（Preview） · TOC：生成目录结构（Preview） · 大文件：异步处理（最高约 1GB / 6000 页） · Visual grounding：元素级坐标与置信度 2. document-workflows — 生产级组合 · 并行批处理（ThreadPool / async） · Classify → Extract 混合文档流水线 · RAG 准备：语义分块、embedding、ChromaDB/FAISS · 导出 DataFrame / CSV / Snowflake · 可视化标注（bbox 叠加、词级高亮） · Streamlit 交互 UI

译LandingAI 将 Agentic Document Extraction 升级为 Agent Skills，支持在 Codex、Claude Code、Cursor 等 coding agent 的对话中直接调用，实现零脚本文档处理流水线。两个 Skill 分工明确：document-extraction 提供结构化 Markdown/层级 JSON 解析、基于 JSON Schema/Pydantic 的字段抽取、按文档类型拆分、按页分类路由（预览）、目录生成（预览）、异步大文件处理（最高约 1GB/6000 页）及元素级坐标与置信度可视化；document-workflows 封装并行批处理、Classify→Extract 混合流水线、RAG 准备（语义分块、embedding、ChromaDB/FAISS）、DataFrame/CSV/Snowflake 导出、bbox 标注叠加及 Streamlit 交互 UI。安装命令：`/plugin marketplace add landing-ai/ade-document-processing-skills`。

meng shao@shao__meng · 6月16日66

Generative UI × Agent Harness Coding Agent（Claude Code / Codex / Pi）在 Vercel Sandbox 里真实改代码、跑命令、测用例；汇报时不再只返回 Markdown，它基于「json-render」输出受约束的 JSON UI 规格，前端实时渲染成步骤、Diff、终端、测试结果、图表等组件。 https://github.com/vercel-labs/json-render/tree/main/examples/harness-chat 这个实现思路，和 Claude Code 核心开发者 @trq212 「Using Claude Code: The Unreasonable Effectiveness of HTML」异曲同工： https://x.com/trq212/status/2052809885763747935 技术架构（三层解耦）用户 Prompt ↓ HarnessAgent（AI SDK 7 实验 API） ├─ Claude Code / Codex / Pi（可互换） └─ Vercel Sandbox（隔离 Linux 环境，真实 bash/edit/test） ↓ Agent 输出：短 prose + ```spec 围栏内的 JSONL ↓ pipeJsonRender（从流中提取 spec → data-spec parts） ↓ 前端 useChat + useJsonRenderMessage → 渲染组件树关键设计点： 1. Harness 抽象与模型抽象对称 AI SDK 7 的 HarnessAgent 让你像换模型一样换 Harness——claudeCode 换成 codex 或 pi，调用方式不变。Harness 管 skills、sandbox、session、权限、compaction 等「模型之上的层」。 2. UI 层与执行层完全解耦 HarnessAgent. stream() 返回标准 AI SDK StreamTextResult，因此 json-render 管道与单模型 chat 示例完全相同。换 Agent Harness，前端代码不用改。 3. Catalog 约束 = 安全 + 可预测 Agent 只能使用预定义组件（Steps、FileChange、Terminal、TestResults、Metric、BarChart…），输出必须符合 Zod schema。AI 生成 UI，但在你划定的组件边界内。 4. Session 绑定 Sandbox 每个 chat 维护一个 live session + sandbox；首条消息冷启动较慢，后续复用同一工作区。10 分钟 idle 或「Start Over」会销毁 sandbox。一次完整交互里发生了什么 1. 用户选 Agent（Claude Code / Codex / Pi）并发送任务 2. 服务端 getSession(chatId, agent) 创建或复用 Harness session 3. Agent 在 sandbox 内执行真实操作（写文件、跑测试、benchmark 等） 4. 回合结束时 Agent 输出： · 一两句 conversational 总结 · 一个 ```spec 围栏包裹的 JSONL UI 报告 5. pipeJsonRender 把 spec 从文本流中拆出，变成 typed data-spec parts 6. 前端同时渲染：Markdown prose、工具调用活动行（bash/edit/read…）、结构化报告组件 Agent 的 system instructions 明确要求：不得虚构结果——失败就展示 error step、非零 exit code、失败测试；Terminal 必须用 session 中真实捕获的输出。

译Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent，结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作，输出受 Zod schema 约束的 JSONL UI 规格（仅限 Steps、FileChange、Terminal 等预定义组件），前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计：Harness 抽象允许像换模型一样互换 Agent；UI 层与执行层完全解耦；Session 绑定 Sandbox，10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果，失败必须展示 error step、非零 exit code 或失败测试。

🚨 AI News | TestingCatalog@testingcatalog · 6月16日37

OPENAI 🔥: Codex now supports Chrome DevTools Protocol for browser use. This is a huge superpower that will allow Codex to inspect and modify any website. It is still a very early implementation, but I bet that in several years this will be a default browser capability. If websites are loaded through AI, users will be able to customize their UX on the fly. This is the way 👀

译OPENAI 🔥: Codex 现在支持 Chrome DevTools 协议，可用于浏览器操作。这是一个巨大的超能力，将允许 Codex 检查并修改任何网站。这仍是一个非常早期的实现，但我敢打赌，几年后这将成为浏览器的默认能力。如果网站通过 AI 加载，用户将能够即时自定义他们的用户体验。这就是方向 👀