# OpenAI Codex Record & Replay、Claude Code Artifacts、Google A2A 协议一周岁

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-19 07:22
- AIHOT 分数：48
- AIHOT 链接：https://aihot.virxact.com/items/cmqk5znu303evslhiq2ow9u1i
- 原文链接：https://x.com/hongming731/status/2067749918719316228

## AI 摘要

OpenAI Codex 上线 Record & Replay，通过录屏演示一次操作（如发布 YouTube 视频），自动提炼为可复用的浏览器工作流。Claude Code 新增 Artifacts 功能，会话进展实时生成可分享的可视化页面（如事故排查面板），支持版本历史和实时刷新，Beta 期面向 Team/Enterprise。Google A2A 智能体协作协议满一周年，强调安全边界、零上下文污染和分布式架构，Python/Go SDK 达 1.0 正式版。

## 正文

http://x.com/i/article/2067749290982936576

# BestBlogs 早报 · 06-19|Codex 录制回放工作流、Claude Code 会话变 Artifacts 页面、A2A 协议满周岁

在线阅读本期早报

## 导语

Agent 学习方式正在从"写提示词"转向"看一遍就会"：OpenAI 让 Codex 通过一次录屏掌握完整工作流，Claude Code 把会话过程实时变成可分享的 Artifacts 页面，Google 的 A2A 协议则在满周岁之际，展示智能体之间如何安全地互相托付任务而不互相干扰。三条主线看似各自独立，其实都在回答同一个问题：当任务交给一个智能体之后，人到底还要插手多少。今天的精选还覆盖世界模型路线之争、CI/CD 渐进式交付方法论，以及开源模型的智能体化评测--这些内容共同构成了今天值得关注的全景。

## 精讲一：OpenAI Codex Record & Replay：演示一次，即可复用浏览器工作流

OpenAI 给 Codex 上线了一项名为 Record & Replay 的新能力，核心思路很直接：与其写一段详尽到每一步的提示词，用户只需要在屏幕上把任务完整做一遍，Codex 就能把这次演示转化成一项可复用的自主技能。这把"教会 Agent 干活"的方式从语言描述换成了行为示范，对很多难以用文字讲清楚的操作流程来说，这是一个更自然的教学方式。

OpenAI 选择了一个很有代表性的日常任务来演示这项能力：把视频发布到 YouTube。这件事通常包含好几个重复性步骤--从内部发布表格里取出视频元数据，找到匹配的素材文件，再手动在 YouTube Studio 里逐项填写字段和设置。演示过程中，Codex 全程观察用户如何取出标题和描述、添加缩略图、加入英文字幕，并把视频配置保存为私密状态。录制完成后，Codex 并不是简单地把这段操作录像存下来，而是分析整个会话，提炼出一项定制技能：它会记录数据存放的位置、上传素材的组织方式，以及如何核验一切是否被正确保存。

真正体现这项能力价值的是后续的自主执行环节。当一个新任务被打开、一份新的视频素材包被附加进来时，Codex 完全接管整个流程：自动把素材包匹配到正确的表格行，填好元数据，上传缩略图和字幕，并安全保存视频--人不需要再插手任何一步。这种工作流自动化也不局限于视频平台。Codex 可以通过电脑操作、浏览器操作和已连接插件三种方式，把 Record & Replay 应用到各种数字环境里，潜在场景从格式化和分享代码仓库的 Pull Request，到按个人偏好配置日历邀约，覆盖范围相当广。

这种设计背后的逻辑值得多说一句：传统的提示词工程要求用户提前把流程的每一个分支、每一处异常都想清楚并写进指令里，而 Record & Replay 把这个负担转移给了模型本身--人只需要做一次正确的事情，剩下的"怎么把这件事讲清楚"交给 Codex 在事后分析里完成。这对那些步骤繁琐、依赖大量上下文（比如哪个文件夹放哪类素材、哪个按钮在哪个菜单里）却很难用语言准确描述的工作流来说，是一种更贴近人类教学习惯的方式，也更容易规模化复制到团队里的其他成员身上。

把这条新闻放在今天三条精讲的脉络里看会更清楚：Codex 解决的是"怎么把一次人类示范变成可复用的自主技能"，而精讲二里 Claude Code 的 Artifacts 解决的是"怎么把一次 Agent 会话变成团队可共享的可视化产物"--两者都在试图减少人在 Agent 工作之后还要做的解释和重复劳动。如果你对浏览器自动化和 Agent 技能沉淀感兴趣，这条值得通读，尤其是关于 Codex 如何从录制中提炼技能细节的部分。详见：OpenAI Codex Record & Replay：演示一次，即可复用浏览器工作流。

## 精讲二：Claude Code 现已支持 Artifacts 渲染功能

Claude Code 上线了 Artifacts 功能：从今天起，一次会话过程中的工作进展能够被实时捕捉成一个可分享的可视化页面--PR 走查、系统说明文档、可筛选排序的仪表盘、甚至会随工作推进自动勾选完成项的发布清单，都能以这种形式呈现。一次 Claude Code 会话可能跨越排查故障、重构服务、分析数月数据等各种类型的工作，Artifacts 的价值在于把这些工作直接翻译成一个任何人都能打开浏览的网页，团队因此能把更多时间花在真正推进工作上，而不是反复沟通进展。

这项功能的关键设计是完全基于会话已有的上下文构建，不需要额外搭建数据源或基础设施。一个事故排查页面可以同时汇总代码里失败的测试和背后的函数、连接的监控工具里的错误突增曲线，以及刚刚那次会话里得出的根因推理--你只需要开口要一个页面，Claude Code 就会用已经存在的信息把它搭建出来。更重要的是这些页面是"活"的：当 Claude Code 更新一个 Artifact 时，已经打开的页面会原地刷新，团队成员在发布的瞬间就能看到更新；每次发布都是同一个链接下的新版本，带版本历史可以随时回溯，还有一个画廊页面方便浏览和管理所有已创建的 Artifacts。

从 Anthropic 内部测试来看，调试是最常见的使用场景之一：一名工程师在站会前开始排查一个事故，Claude Code 处理日志并发布一个 Artifact--时间线、可疑提交记录、错误率曲线一应俱全，她把链接从页面头部分享给团队；等站会开始时，Claude 已经随着排查进展把这个页面重新发布了两次。有了 Artifacts，团队成员和相关方不再需要"听 Agent 讲一遍发现了什么"，因为所有人看到的是同一个、带着相同上下文的视图。每个 Artifact 默认仅作者本人可见，准备好后可以直接从页面分享给团队或整个组织；管理员可以用组织级开关和基于角色的权限管理访问，设置留存策略，并通过合规 API 获得组织范围的可见性。目前这项功能处于 Beta 阶段，面向 Team 和 Enterprise 组织开放。

这条新闻和精讲一放在一起看会有意思的呼应：Codex 的 Record & Replay 让 Agent 学会一项可重复执行的技能，而 Claude Code 的 Artifacts 让 Agent 已经做完的工作变得可见、可分享、可持续更新--前者解决"怎么教"，后者解决"怎么呈现"，两者合在一起，正在慢慢补全"人和 Agent 协作"这件事里原本依赖大量手动沟通的环节。如果你正在评估团队协作场景里怎么用好 Agent 产出的中间结果，这条值得细读各角色的使用范例部分。详见：Claude Code 现已支持 Artifacts 渲染功能。

## 精讲三：A2A 如何构建一个协作智能体的世界

Google 的智能体协作协议 A2A（Agent-to-Agent）今天正好满一周岁。文章的核心论点是：如果把智能体当作普通 API 来调用，会严重限制它的潜力。API 是刚性且确定性的，调用它要么返回数据要么失败；而智能体是流动且自主的--当一个智能体调用 A2A 的另一个智能体时，发起的其实是一场协作，接收方能够理解意图、完善方案、对不完整的请求提出异议，并在情况不对时主动追问。这是 A2A 与传统 REST API 最根本的区别。

A2A 带来的架构优势集中在几个方面。其一是"安全边界"：企业场景里，智能体经常需要调用敏感数据或自研的内部流程，这些内容不能暴露给公开的大模型或第三方系统，A2A 支持把任务交给一个专门的内部智能体、由它在自己的安全环境里完成处理，请求方只拿到高价值的输出结果，专有数据和"怎么做"的逻辑始终被封装、严格保密。其二是"零上下文污染"：大模型的上下文窗口是有限的，如果强迫一个主智能体去处理复杂的多步骤依赖，它的上下文窗口会被迅速填满，导致幻觉和性能下降；通过 A2A，专精的同行智能体可以自己处理庞大的依赖关系和内部状态，不会占用主智能体的"内存"。其三是工作负载的分布式协作：不同部分的方案可以由不同的同事、团队、供应商或托管智能体服务分别构建和维护，这让整体应用设计更简单，长期维护也更容易。

文章用蛋白质结构预测工具 FoldRun 具体展示了这套架构的运作方式。预测蛋白质的三维结构是生物学里的"圣杯"级难题，但对开发者来说几乎是一场基础设施噩梦：海量遗传数据库、专用 GPU 需求，再加上 AlphaFold、OpenFold、Boltz 等模型各自的多步骤生命周期管理，从零搭建这套能力是一道极高的"复杂度陡坡"。在 A2A 的世界里，开发者不需要拼接脆弱的 API 工作流，也不需要自建智能体、注入专门技能、加固安全环境--只需要把 FoldRun 这个独立的智能体节点接入 Gemini Enterprise、Gemini CLI 或任何兼容 A2A 的环境，用自然语言把任务交给它，FoldRun 会根据预测置信度自主调整参数、在 AlphaFold 2、OpenFold 3 或 Boltz-2 之间做出选择，并把结果作为一个专精同行的产出交付回来。生物科技公司 BicycleTx 作为核心设计合作伙伴，反馈这种智能体接口方式让团队跨部门测试和集成工作流变得容易了很多。

目前 A2A 的 Python 和 Go SDK 已经达到 1.0 正式版，Java（Beta）和 .NET（Preview）也在向 1.0 规范靠拢，JavaScript/TypeScript 则停留在稳定的 v0.3 线上、正在推进 1.0 工作。应用场景正在从科研扩展到智能体商务与自主支付（让智能体安全地协商交易、核验库存、执行 B2B 采购）、企业数据与实时流处理（专精的 A2A 智能体守在数据边缘，只在满足特定合规条件时才拉取洞察并触发下游工作流）、跨平台 IT 与运维协同（一个 HR 智能体可以安全地把角色参数交给一个专门的 DevOps 智能体，由后者跨多个互不相通的 SaaS 平台自主开通软件许可、仓库权限和安全环境），以及要求量子安全端到端消息层加密的受监管电信网络。把这条新闻和前两条精讲连起来看：Codex 教会 Agent 复用一项技能、Claude Code 让 Agent 的工作过程变得可见，而 A2A 则让不同的 Agent 能够彼此托付任务、安全协作--三者拼在一起，正好是"单个 Agent 能力"到"多 Agent 协作生态"的一条完整链路。如果你关心企业级 Agent 架构怎么落地，这条值得细读 FoldRun 案例和四个应用场景部分。详见：A2A 如何构建一个协作智能体的世界。

## 速览

哪条路线，才能通往「世界模型」的终局？|对话黄碧薇：Aether AI 创始人。Aether AI 创始人黄碧薇教授深度拆解了世界模型领域被过度使用的概念边界：视频生成、3D 生成、JEPA、VLA、WAM 似乎都能被叫作世界模型，但她提出了一条很少被提及的"第四条路线"--以因果 AI 为核心的因果世界模型。访谈里她解释了真正的世界模型需要在隐空间里同时学会哪三样东西，为什么 LLM 不需要理解因果也能逻辑严密，而世界模型却绕不开因果；也谈到了 VLA 的能力天花板、WAM 为什么可能只是一个中间态，以及她从 UCSD 教授转型创业者的心路历程。这期节目对关注具身智能和下一代 AI 范式的读者会很有启发。详见：哪条路线，才能通往「世界模型」的终局？|对话黄碧薇：Aether AI 创始人。

你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布。文章提出了一个尖锐的问题：团队精心调教的 Harness 研发工作流，到底是在进步还是退步，很多团队其实回答不了，只能靠"主观 vibes"判断。作者团队设计了一套"出题-答题-改卷"的考试机制，把可重复、可归因、闭环作为三个不可妥协的设计原则，用多维度打分、证据和改进建议取代简单的二值判定，试图把 Harness 工作流的演进从感觉驱动变成数据驱动。这是一篇罕见的系统化阐述 Agent 工作流评测方法论的工程文章。详见：你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布。

超越流水线的 CI/CD：Robert Erez 谈渐进式交付、GitOps 与前滚恢复。Robert Erez 把 CI/CD 从一份流水线检查清单，重新定义成一套务实的风险管理方法论。他把持续集成、持续交付、持续部署拆解成一条成熟度路径，并指出渐进式交付（金丝雀发布、蓝绿部署、功能开关）的核心价值是缩小变更的影响半径；同时强调功能开关本身会产生技术债--需要明确的负责人、过期时间和清理流程。文章还谈到 GitOps 应该被理解为一组特性，而不是"必须把一切都存进 Git"的硬性要求。对正在打磨发布流程的工程团队，这是一份很实用的方法论梳理。详见：超越流水线的 CI/CD：Robert Erez 谈渐进式交付、GitOps 与前滚恢复。

从开源到 Agent，从组织到个体：AIEC 大会现场侧记。两位资深行业观察者在清华大学全球产业研究院主办的人工智能+生态大会（AIEC 2026）现场，深度复盘了 AI 领域当下的核心共识与非共识：企业 AI 转型中组织和人的权重在提升、Agent 正在成为"数字员工"、产品形态趋同之后差异化到底在哪里，以及模型公司是否会通吃应用层。对谈也延伸到开源生态的最新表态，以及技术洪流之下个体的判断力、品味与表达欲为什么反而变得更重要。适合关心行业格局变化和个体定位的读者。详见：从开源到 Agent，从组织到个体：AIEC 大会现场侧记。

MosaicLeaks：你的研究智能体还能保守秘密吗？。深度研究智能体越来越多地把私有本地文档和外部工具（如网页检索）结合使用，这带来一个容易被忽视的隐私风险：智能体对外发出的查询本身就可能泄露敏感信息。文章提出的 MosaicLeaks 基准测试发现，多个被测模型都存在频繁的隐私泄露，而且只针对任务表现做训练反而会让泄露问题更严重；研究团队进而提出了一种隐私感知的强化学习训练方法 PA-DR，能把严格链路成功率从 48.7% 提升到 58.7%，同时把答案/完整信息泄露率从 34.0% 降到 9.9%。这是一篇对正在构建深度研究类 Agent 的团队很有参考价值的安全研究。详见：MosaicLeaks：你的研究智能体还能保守秘密吗？。

智能体化程度够了吗？用自有工具对开源模型进行基准测试。文章提出了一种新的基准测试思路：不只衡量智能体是否完成了任务，还要衡量它为完成任务付出了多少工作量--花了多少时间、消耗了多少 token。作者团队以 transformers 库为案例，发现引入新的 CLI 和 Skill 之后，大型开源模型完成任务的效率明显提升，但同样的改动反而会损害小型模型的表现，揭示出"为 Agent 优化软件"这件事并不是对所有模型一视同仁。对正在做工具或库的智能体友好化改造的团队，这篇提供了一套可操作的衡量框架。详见：智能体化程度够了吗？用自有工具对开源模型进行基准测试。

TPU 上的 MoE 推理优化：SGLang-JAX 用 Pallas 内核砍延迟 53%。文章详细介绍了在 TPU v7x 上为 Ling-2.6-1T 这个 MoE 模型做推理优化的过程，核心是一个名为 Fused MoE V2 的全新 Pallas 内核，它把数据移动巧妙地隐藏在计算背后，让 MoE 预填充延迟从 5.16 毫秒降到 2.42 毫秒，降幅达 53%；在解码吞吐量上，16 块 TPU v7x 芯片相比 16 块 H200 GPU 最高能达到 1.77 倍。对关注大模型推理硬件优化和 MoE 架构工程细节的读者，这是一篇值得细读的硬核技术文章。详见：TPU 上的 MoE 推理优化：SGLang-JAX 用 Pallas 内核砍延迟 53%。

## 补充阅读

为 Cloudflare 带来更多 Agent 框架，从 Flue 开始--Cloudflare 推出 Agents SDK 作为生产级 Agent 框架的平台层，并介绍了基于该 SDK 构建的开源框架 Flue，用来解决持久化执行、安全代码执行和持久化文件系统等生产环境里的常见挑战。适合关注 Agent 基础设施和框架选型的读者。详见：为 Cloudflare 带来更多 Agent 框架，从 Flue 开始。

3 亿美元 ARR、估值超 20 亿美元，演语科技是怎么做 ToC 应用增长的？--深度复盘演语科技（LiblibAI、LibTV）如何聚焦专业内容创作者、做厚应用层工作流、激进借力模型迭代，在 AI 应用层普遍承受质疑的当下实现 3 亿美元 ARR 和超 20 亿美元估值。适合关心 AI 应用商业化路径的读者。详见：3 亿美元 ARR、估值超 20 亿美元，演语科技是怎么做 ToC 应用增长的？。

Spring Security 7 新特性：可组合 MFA、更安全的 OAuth 2、模块化配置与 MCP 安全--现场演示展示了 Spring Security 7 如何把认证因素转化为可组合的授权数据，并提升配置安全性、OAuth 2 默认机制、受保护 HTTP 客户端，还加入了实验性的 MCP 安全能力。适合 Java/Spring 生态的后端开发者。详见：Spring Security 7 新特性：可组合 MFA、更安全的 OAuth 2、模块化配置与 MCP 安全。

生产级 AI 实战手册：如何在企业规模部署可衡量、可追责的智能体--提出一套经过企业实践检验的方法论：团队应该先建立与业务目标挂钩的评估、追踪、数据治理、编排和事故责任机制，再去选择模型或发布智能体，而不是反过来。适合负责企业级 AI 落地的工程和产品负责人。详见：生产级 AI 实战手册：如何在企业规模部署可衡量、可追责的智能体。

如何选择创业点子：先坚定投入，再用客户洞察找到真正的机会--YC 合伙人 John 认为，创始人不应该继续寻找完美的创业点子，而应该选定一个有潜力的方向坚定投入，通过深入理解客户和快速执行去判断它是否可行。适合正在纠结方向选择的早期创业者。详见：如何选择创业点子：先坚定投入，再用客户洞察找到真正的机会。

驾驭 Claude Code：技能、钩子、子智能体等--来自 Claude 博客的技术指南，系统梳理了七种自定义 Claude Code 行为的方法，并给出了在什么场景该用哪种方法的决策框架。适合正在搭建复杂 Claude Code 工作流的开发者，也可以和今天精讲二里的 Artifacts 功能对照着读。详见：驾驭 Claude Code：技能、钩子、子智能体等。

利用 AI 帮助医生诊断影响儿童的罕见遗传疾病--一项发表在《NEJM AI》上的研究显示，使用 OpenAI 推理模型重新分析 376 个此前未解决的罕见病病例后，医生在其中 18 个病例里找到了诊断线索，额外诊断率达到 4.8%。适合关心 AI 在医疗诊断领域具体落地效果的读者。详见：利用 AI 帮助医生诊断影响儿童的罕见遗传疾病。

## 今日阅读路径

如果今天时间有限，建议按这个顺序读：第一，精讲一的 OpenAI Codex Record & Replay，了解 Agent 怎么从一次人类演示中学会一项可复用技能，重点看从录制到自主执行的转变；第二，精讲二的 Claude Code Artifacts，理解 Agent 完成的工作怎么变成团队可共享的实时页面，重点看调试场景里的具体使用范例；第三，精讲三的 A2A 协议满周岁，看看不同 Agent 之间怎么安全地互相托付任务，重点看 FoldRun 案例和"安全边界、零上下文污染"两个架构优势。三篇连起来读，正好串出今天"单个 Agent 学习能力-工作过程可见性-多 Agent 协作生态"这条主线。

如果还有余力，再补两篇：一篇是黄碧薇教授关于世界模型"第四条路线"的访谈，从具身智能的角度补上今天 Agent 主线之外的另一个技术前沿；另一篇是腾讯技术工程的 Harness 工作流评测体系，从工程落地的角度看一个真实团队是怎么把"Agent 工作流到底有没有变好"这个问题量化下来的。这五篇加在一起，基本能拼出今天 AI 行业从 Agent 能力进化、协作架构到落地评测方法的完整链路。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么，欢迎体验。