OpenAI 选择了一个很有代表性的日常任务来演示这项能力:把视频发布到 YouTube。这件事通常包含好几个重复性步骤--从内部发布表格里取出视频元数据,找到匹配的素材文件,再手动在 YouTube Studio 里逐项填写字段和设置。演示过程中,Codex 全程观察用户如何取出标题和描述、添加缩略图、加入英文字幕,并把视频配置保存为私密状态。录制完成后,Codex 并不是简单地把这段操作录像存下来,而是分析整个会话,提炼出一项定制技能:它会记录数据存放的位置、上传素材的组织方式,以及如何核验一切是否被正确保存。
真正体现这项能力价值的是后续的自主执行环节。当一个新任务被打开、一份新的视频素材包被附加进来时,Codex 完全接管整个流程:自动把素材包匹配到正确的表格行,填好元数据,上传缩略图和字幕,并安全保存视频--人不需要再插手任何一步。这种工作流自动化也不局限于视频平台。Codex 可以通过电脑操作、浏览器操作和已连接插件三种方式,把 Record & Replay 应用到各种数字环境里,潜在场景从格式化和分享代码仓库的 Pull Request,到按个人偏好配置日历邀约,覆盖范围相当广。
这种设计背后的逻辑值得多说一句:传统的提示词工程要求用户提前把流程的每一个分支、每一处异常都想清楚并写进指令里,而 Record & Replay 把这个负担转移给了模型本身--人只需要做一次正确的事情,剩下的"怎么把这件事讲清楚"交给 Codex 在事后分析里完成。这对那些步骤繁琐、依赖大量上下文(比如哪个文件夹放哪类素材、哪个按钮在哪个菜单里)却很难用语言准确描述的工作流来说,是一种更贴近人类教学习惯的方式,也更容易规模化复制到团队里的其他成员身上。
把这条新闻放在今天三条精讲的脉络里看会更清楚:Codex 解决的是"怎么把一次人类示范变成可复用的自主技能",而精讲二里 Claude Code 的 Artifacts 解决的是"怎么把一次 Agent 会话变成团队可共享的可视化产物"--两者都在试图减少人在 Agent 工作之后还要做的解释和重复劳动。如果你对浏览器自动化和 Agent 技能沉淀感兴趣,这条值得通读,尤其是关于 Codex 如何从录制中提炼技能细节的部分。详见:OpenAI Codex Record & Replay:演示一次,即可复用浏览器工作流。
精讲二:Claude Code 现已支持 Artifacts 渲染功能
Claude Code 上线了 Artifacts 功能:从今天起,一次会话过程中的工作进展能够被实时捕捉成一个可分享的可视化页面--PR 走查、系统说明文档、可筛选排序的仪表盘、甚至会随工作推进自动勾选完成项的发布清单,都能以这种形式呈现。一次 Claude Code 会话可能跨越排查故障、重构服务、分析数月数据等各种类型的工作,Artifacts 的价值在于把这些工作直接翻译成一个任何人都能打开浏览的网页,团队因此能把更多时间花在真正推进工作上,而不是反复沟通进展。
Google 的智能体协作协议 A2A(Agent-to-Agent)今天正好满一周岁。文章的核心论点是:如果把智能体当作普通 API 来调用,会严重限制它的潜力。API 是刚性且确定性的,调用它要么返回数据要么失败;而智能体是流动且自主的--当一个智能体调用 A2A 的另一个智能体时,发起的其实是一场协作,接收方能够理解意图、完善方案、对不完整的请求提出异议,并在情况不对时主动追问。这是 A2A 与传统 REST API 最根本的区别。
哪条路线,才能通往「世界模型」的终局?|对话黄碧薇:Aether AI 创始人。Aether AI 创始人黄碧薇教授深度拆解了世界模型领域被过度使用的概念边界:视频生成、3D 生成、JEPA、VLA、WAM 似乎都能被叫作世界模型,但她提出了一条很少被提及的"第四条路线"--以因果 AI 为核心的因果世界模型。访谈里她解释了真正的世界模型需要在隐空间里同时学会哪三样东西,为什么 LLM 不需要理解因果也能逻辑严密,而世界模型却绕不开因果;也谈到了 VLA 的能力天花板、WAM 为什么可能只是一个中间态,以及她从 UCSD 教授转型创业者的心路历程。这期节目对关注具身智能和下一代 AI 范式的读者会很有启发。详见:哪条路线,才能通往「世界模型」的终局?|对话黄碧薇:Aether AI 创始人。
生产级 AI 实战手册:如何在企业规模部署可衡量、可追责的智能体--提出一套经过企业实践检验的方法论:团队应该先建立与业务目标挂钩的评估、追踪、数据治理、编排和事故责任机制,再去选择模型或发布智能体,而不是反过来。适合负责企业级 AI 落地的工程和产品负责人。详见:生产级 AI 实战手册:如何在企业规模部署可衡量、可追责的智能体。
如何选择创业点子:先坚定投入,再用客户洞察找到真正的机会--YC 合伙人 John 认为,创始人不应该继续寻找完美的创业点子,而应该选定一个有潜力的方向坚定投入,通过深入理解客户和快速执行去判断它是否可行。适合正在纠结方向选择的早期创业者。详见:如何选择创业点子:先坚定投入,再用客户洞察找到真正的机会。
驾驭 Claude Code:技能、钩子、子智能体等--来自 Claude 博客的技术指南,系统梳理了七种自定义 Claude Code 行为的方法,并给出了在什么场景该用哪种方法的决策框架。适合正在搭建复杂 Claude Code 工作流的开发者,也可以和今天精讲二里的 Artifacts 功能对照着读。详见:驾驭 Claude Code:技能、钩子、子智能体等。
利用 AI 帮助医生诊断影响儿童的罕见遗传疾病--一项发表在《NEJM AI》上的研究显示,使用 OpenAI 推理模型重新分析 376 个此前未解决的罕见病病例后,医生在其中 18 个病例里找到了诊断线索,额外诊断率达到 4.8%。适合关心 AI 在医疗诊断领域具体落地效果的读者。详见:利用 AI 帮助医生诊断影响儿童的罕见遗传疾病。
OpenAI 选择了一个很有代表性的日常任务来演示这项能力:把视频发布到 YouTube。这件事通常包含好几个重复性步骤--从内部发布表格里取出视频元数据,找到匹配的素材文件,再手动在 YouTube Studio 里逐项填写字段和设置。演示过程中,Codex 全程观察用户如何取出标题和描述、添加缩略图、加入英文字幕,并把视频配置保存为私密状态。录制完成后,Codex 并不是简单地把这段操作录像存下来,而是分析整个会话,提炼出一项定制技能:它会记录数据存放的位置、上传素材的组织方式,以及如何核验一切是否被正确保存。
真正体现这项能力价值的是后续的自主执行环节。当一个新任务被打开、一份新的视频素材包被附加进来时,Codex 完全接管整个流程:自动把素材包匹配到正确的表格行,填好元数据,上传缩略图和字幕,并安全保存视频--人不需要再插手任何一步。这种工作流自动化也不局限于视频平台。Codex 可以通过电脑操作、浏览器操作和已连接插件三种方式,把 Record & Replay 应用到各种数字环境里,潜在场景从格式化和分享代码仓库的 Pull Request,到按个人偏好配置日历邀约,覆盖范围相当广。
这种设计背后的逻辑值得多说一句:传统的提示词工程要求用户提前把流程的每一个分支、每一处异常都想清楚并写进指令里,而 Record & Replay 把这个负担转移给了模型本身--人只需要做一次正确的事情,剩下的"怎么把这件事讲清楚"交给 Codex 在事后分析里完成。这对那些步骤繁琐、依赖大量上下文(比如哪个文件夹放哪类素材、哪个按钮在哪个菜单里)却很难用语言准确描述的工作流来说,是一种更贴近人类教学习惯的方式,也更容易规模化复制到团队里的其他成员身上。
把这条新闻放在今天三条精讲的脉络里看会更清楚:Codex 解决的是"怎么把一次人类示范变成可复用的自主技能",而精讲二里 Claude Code 的 Artifacts 解决的是"怎么把一次 Agent 会话变成团队可共享的可视化产物"--两者都在试图减少人在 Agent 工作之后还要做的解释和重复劳动。如果你对浏览器自动化和 Agent 技能沉淀感兴趣,这条值得通读,尤其是关于 Codex 如何从录制中提炼技能细节的部分。详见:OpenAI Codex Record & Replay:演示一次,即可复用浏览器工作流。
精讲二:Claude Code 现已支持 Artifacts 渲染功能
Claude Code 上线了 Artifacts 功能:从今天起,一次会话过程中的工作进展能够被实时捕捉成一个可分享的可视化页面--PR 走查、系统说明文档、可筛选排序的仪表盘、甚至会随工作推进自动勾选完成项的发布清单,都能以这种形式呈现。一次 Claude Code 会话可能跨越排查故障、重构服务、分析数月数据等各种类型的工作,Artifacts 的价值在于把这些工作直接翻译成一个任何人都能打开浏览的网页,团队因此能把更多时间花在真正推进工作上,而不是反复沟通进展。
这项功能的关键设计是完全基于会话已有的上下文构建,不需要额外搭建数据源或基础设施。一个事故排查页面可以同时汇总代码里失败的测试和背后的函数、连接的监控工具里的错误突增曲线,以及刚刚那次会话里得出的根因推理--你只需要开口要一个页面,Claude Code 就会用已经存在的信息把它搭建出来。更重要的是这些页面是"活"的:当 Claude Code 更新一个 Artifact 时,已经打开的页面会原地刷新,团队成员在发布的瞬间就能看到更新;每次发布都是同一个链接下的新版本,带版本历史可以随时回溯,还有一个画廊页面方便浏览和管理所有已创建的 Artifacts。
从 Anthropic 内部测试来看,调试是最常见的使用场景之一:一名工程师在站会前开始排查一个事故,Claude Code 处理日志并发布一个 Artifact--时间线、可疑提交记录、错误率曲线一应俱全,她把链接从页面头部分享给团队;等站会开始时,Claude 已经随着排查进展把这个页面重新发布了两次。有了 Artifacts,团队成员和相关方不再需要"听 Agent 讲一遍发现了什么",因为所有人看到的是同一个、带着相同上下文的视图。每个 Artifact 默认仅作者本人可见,准备好后可以直接从页面分享给团队或整个组织;管理员可以用组织级开关和基于角色的权限管理访问,设置留存策略,并通过合规 API 获得组织范围的可见性。目前这项功能处于 Beta 阶段,面向 Team 和 Enterprise 组织开放。
Google 的智能体协作协议 A2A(Agent-to-Agent)今天正好满一周岁。文章的核心论点是:如果把智能体当作普通 API 来调用,会严重限制它的潜力。API 是刚性且确定性的,调用它要么返回数据要么失败;而智能体是流动且自主的--当一个智能体调用 A2A 的另一个智能体时,发起的其实是一场协作,接收方能够理解意图、完善方案、对不完整的请求提出异议,并在情况不对时主动追问。这是 A2A 与传统 REST API 最根本的区别。
哪条路线,才能通往「世界模型」的终局?|对话黄碧薇:Aether AI 创始人。Aether AI 创始人黄碧薇教授深度拆解了世界模型领域被过度使用的概念边界:视频生成、3D 生成、JEPA、VLA、WAM 似乎都能被叫作世界模型,但她提出了一条很少被提及的"第四条路线"--以因果 AI 为核心的因果世界模型。访谈里她解释了真正的世界模型需要在隐空间里同时学会哪三样东西,为什么 LLM 不需要理解因果也能逻辑严密,而世界模型却绕不开因果;也谈到了 VLA 的能力天花板、WAM 为什么可能只是一个中间态,以及她从 UCSD 教授转型创业者的心路历程。这期节目对关注具身智能和下一代 AI 范式的读者会很有启发。详见:哪条路线,才能通往「世界模型」的终局?|对话黄碧薇:Aether AI 创始人。
生产级 AI 实战手册:如何在企业规模部署可衡量、可追责的智能体--提出一套经过企业实践检验的方法论:团队应该先建立与业务目标挂钩的评估、追踪、数据治理、编排和事故责任机制,再去选择模型或发布智能体,而不是反过来。适合负责企业级 AI 落地的工程和产品负责人。详见:生产级 AI 实战手册:如何在企业规模部署可衡量、可追责的智能体。
如何选择创业点子:先坚定投入,再用客户洞察找到真正的机会--YC 合伙人 John 认为,创始人不应该继续寻找完美的创业点子,而应该选定一个有潜力的方向坚定投入,通过深入理解客户和快速执行去判断它是否可行。适合正在纠结方向选择的早期创业者。详见:如何选择创业点子:先坚定投入,再用客户洞察找到真正的机会。
驾驭 Claude Code:技能、钩子、子智能体等--来自 Claude 博客的技术指南,系统梳理了七种自定义 Claude Code 行为的方法,并给出了在什么场景该用哪种方法的决策框架。适合正在搭建复杂 Claude Code 工作流的开发者,也可以和今天精讲二里的 Artifacts 功能对照着读。详见:驾驭 Claude Code:技能、钩子、子智能体等。
利用 AI 帮助医生诊断影响儿童的罕见遗传疾病--一项发表在《NEJM AI》上的研究显示,使用 OpenAI 推理模型重新分析 376 个此前未解决的罕见病病例后,医生在其中 18 个病例里找到了诊断线索,额外诊断率达到 4.8%。适合关心 AI 在医疗诊断领域具体落地效果的读者。详见:利用 AI 帮助医生诊断影响儿童的罕见遗传疾病。