# AI Agent 落地三问：代码本质、长流程状态、GUI 操控

- 来源：ginobefun (@hongming731)
- 发布时间：2026-05-13 08:25
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmp3cdm2904uqsl1qple0f6ma
- 原文链接：https://x.com/hongming731/status/2054357282243416294

## AI 摘要

本期探讨AI Agent从演示走向生产环境的核心挑战。首先，在LLM时代，工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次，构建可靠的长流程Agent需进行关键架构转变：用持久化状态机替代对话历史来管理状态，采用事件驱动机制处理空闲等待，并通过多Agent委托实现职责分离。最后，GUI操控Agent的实践表明，执行自动化仅解决一半问题，对业务逻辑的深度理解才是关键。此外，基础设施需应对大规模并发访问的挑战。

## 正文

http://x.com/i/article/2054356653437562880

# AI Agent 落地三问：代码本质、长流程状态、GUI 操控 · BestBlogs 每日早报 05.13

在线阅读和收听早报：https://www.bestblogs.dev/explore/brief

EP55 · 2026 年 5 月 13 日

> 从演示 Agent 到生产 Agent，最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面：Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询，让长流程 Agent 永不丢失上下文；小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈，发现执行自动化只解决一半问题，业务理解才是核心；PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节，说明 Scale 数量才是 Infra 真正的考题。

## 导语

今天是 5 月 13 日，星期三。欢迎收听 BestBlogs 每日早报第 55 期。

LLM 让生成代码这件事变得廉价，但真正让工程师有价值的能力--对问题域的深度建模--并没有被替代。今天三篇精读，分别从「代码的本质」、「长流程 Agent 架构」和「GUI 操作 Agent」三个维度，探讨 AI Agent 从 Demo 走向生产的关键挑战。

精讲一来自 Martin Fowler 博客，Thoughtworks 首席工程师 Unmesh Joshi 追问：代码究竟是什么？他的答案直指 LLM 时代开发者的核心竞争力。当 LLM 把「打字生成代码」这件事商品化之后，真正稀缺的变成了什么？这个问题比大多数人想象的更深。

精讲二来自 Google Developers Blog，用一个「新员工入职协调 Agent」的完整实现，展示了三项让 Agent 从 Demo 走向生产的关键架构转变--持久化状态机、事件驱动休眠门控、多 Agent 委托。这是目前最完整的开源参考实现之一。

精讲三来自 OpenAI，演示了 Codex 的 computer use 功能--AI Agent 正式迈入「操控本地 GUI」的新阶段。用独立光标、不接管用户电脑，在后台并行处理多个桌面任务。

速览部分，我们还关注了：小红书 GUI Agent 测试工程实战（执行自动化解决一半，业务理解才是另一半）、PingCAP TiDB 为 Kimi K2.6 提供虚拟数据库支持、Anthropic CLUE 威胁检测平台、Claude 法律行业版 20+ MCP 连接器、吴恩达对 AI 就业影响的系统性分析、Agent Skill 规范与五种设计模式，以及当前最紧迫的供应链安全事件--Mini Shai-Hulud 蠕虫侵入 172 个 npm/PyPI 包，删包后仍存活。

## 精讲一：什么是代码？

代码是什么？表面上看，答案显而易见--代码就是程序员写的、告诉机器做什么的指令。但 Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者 Unmesh Joshi 在 Martin Fowler 博客上的这篇文章里，对这个问题给出了一个更深刻、也更有预见性的答案。

代码承载两个使命，正在被分别对待

Joshi 认为，代码始终同时服务于两个目的：

第一，给机器的指令--让计算机执行操作、移动数据、协调计算。这部分，正在被 LLM 商品化。你不再需要逐字敲出每一行代码，高层次的描述就能生成大量可运行的代码。LLM 在这个维度上的能力提升速度，比大多数人预期的快得多。

第二，问题域的概念模型--这是代码的「设计」维度。一个优秀的代码库，不只包含机器能执行的指令，还包含人和工具能用来推理的概念。类名、方法名、模块边界--这些构成了一套共享的词汇表，让团队能够用同一种语言思考和沟通。这个维度，目前还没有被 LLM 真正替代。

词汇表是核心，领域知识是护城河

Joshi 举了一个零售域的例子：当我们为零售业写代码，代码里出现的是「顾客」、「商品」、「订单」、「发货」、「支付」。当我们为这个域做 Web 开发时，代码里还有「资源」、「GET/POST/DELETE 语义」这套 Web 词汇的映射。

一个不懂这两套词汇体系的人，写出来的代码架构会有根本缺陷--即使机器能正确运行，也无法经受需求变化的冲击，也无法让团队在未来高效地在上面继续工作。

这套词汇体系，就是领域驱动设计（DDD）里的「通用语言」（Ubiquitous Language）。它不是凭空生成的，而是在与领域专家深度合作、在无数次设计决策中逐渐形成的。LLM 可以模仿词汇，但无法替代构建词汇体系的过程--因为那个过程本质上是对业务现实的深度理解和提炼。

AI 时代，稀缺技能正在转移

当「打字生成代码」变得廉价，真正稀缺的技能是：

- 为问题域构建精准的概念模型--什么是核心实体？它们之间的关系是什么？

- 设计清晰的词汇体系和有界上下文--在哪里「顾客」和「用户」应该是同一个概念，在哪里它们必须分开？

- 在人与 LLM 的协作中保持概念的一致性--如何确保 LLM 生成的代码使用了正确的领域词汇，而不是创造了新的混乱？

Joshi 的结论很简洁：在 AI 时代，工程师应该主动提升的是建模能力，而不是打字速度。

与今日其他精读的关联

这个视角与今天精讲二、三形成了一个有趣的呼应：精讲二的 ADK 长流程 Agent，核心挑战就是为工作流建立精确的状态模型（把「入职流程」建模为六个明确节点）；精讲三的 Codex computer use，需要 AI 对 GUI 界面的功能语义有正确理解（通过 Accessibility 框架提取 UI 元素的文字描述）。无论是人写代码还是 Agent 编排任务，「准确的概念模型」都是核心约束。

这篇文章不长，但它在 LLM 渗透开发工作流的当下，给了开发者一个非常清醒的定位框架。如果你正在思考「AI 会取代程序员吗」，或者想理解自己在 AI 时代应该投资什么能力，这是最值得认真读的一篇。

阅读原文：什么是代码？

## 精讲二：构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体（基于 ADK）

大多数 Agent 教程都止步于一个无状态聊天机器人--对话结束、容器重启，什么都忘了。但真实的企业工作流不是这样的。

HR 入职流程跨越两周，发票争议需要等待供应商回复好几天，销售跟进序列可能延续一个月。这些流程的主角，是漫长的「空闲等待」--Agent 需要在等待人类签字、物流确认、审批通过的过程中静静休眠，然后准确地从中断点继续。一个无状态聊天机器人根本无法应对这种挑战。

Google Developers Blog 上的这篇教程，用一个「新员工入职协调 Agent」展示了三项将 Agent 从 Demo 推向生产的关键架构转变。

无状态 Agent 为何在真实工作流中崩溃

当前主流的无状态模式，是把每条用户消息和模型回复追加到不断增长的对话历史里，然后把整个历史塞给下一次 LLM 调用。这对五分钟的问答没问题，但在跨天、跨周的工作流里会以三种方式失败：

- 上下文污染：经过数百轮对话，历史里充满了过时的工具输出和无关闲聊，模型开始搞混自己在哪个步骤。

- Token 成本爆炸：把两周的对话历史在每次推理时完整重放，Token 消耗极高，一次入职流程可能产生数千轮对话，大多数对当前决策不再相关。

- 空闲期后的幻觉：Agent 在等待签字期间休眠三天后，带着大量历史上下文重启，频繁「记起」从未发生过的步骤，或跳过它以为已完成的环节。

解决方案不是更大的上下文窗口，而是一种根本不同的架构--让 Agent 的状态变得显式、持久、并与原始对话历史解耦。

三项关键架构转变

转变一：持久化状态机替代对话历史

教程把入职流程建模为六个明确的节点：

1. 发送欢迎包和文件链接

1. 等待 - 员工签署文件（空闲等待）

1. IT 配置企业邮箱和 Slack 账号

1. 等待 - 笔记本电脑发货（空闲等待）

1. 发送个性化第一天日程

每个节点对应一个明确的状态，Agent 任何时候重启，都能从状态机精确定位自己在哪里，完全不依赖对话历史。状态是持久化的，存储在可靠的后端（本地是 SQLite，云端是托管存储），不随进程生死而消失。

转变二：事件驱动休眠门控

「等待签字」不再是让 Agent 主动轮询「文件签好了吗？」，而是设置一个事件门控--文件签署事件到达时，Agent 自动唤醒并从正确节点继续。休眠期间零资源占用，没有 Token 消耗，也没有定期唤醒导致的幻觉风险。这与传统的 Webhook/异步任务队列的思路一致，但被系统性地集成进了 ADK 的 Agent 生命周期管理中。

转变三：多 Agent 委托

IT 账号配置这类子任务，委托给专门的 IT 子 Agent 独立完成，主 Agent 只负责协调，不负责执行细节。子 Agent 可以独立运行、独立失败、独立重试，不会拖累整个主流程。这让整个系统更易于维护、测试和扩展--每个 Agent 的职责边界清晰，与微服务的设计理念一脉相承。

核心洞察：Context 与 State 解耦

这篇教程的核心洞察是：把 Context（对话历史，给 LLM 理解当前对话语境用）与 State（工作流状态机，给系统定位当前流程节点用）解耦，是 Agent 从 Demo 走向生产的关键一步。这两个东西长期被混为一谈，导致无状态 Agent 在长流程场景下的失败。

完整代码已开源于 GitHub，涵盖 ADK 状态机、事件门控和多 Agent 委托的完整实现，可以直接参考用于自己的生产 Agent。

如果你正在构建任何需要跨小时、跨天运行的 Agent--审批流、数据处理管道、自动化调研任务--这篇教程的架构思路是目前最完整的开源参考之一。

阅读原文：构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体（基于 ADK）

## 精讲三：Codex 的 computer use：OpenAI 展示新的 AI 队友能力

OpenAI 演示的 Codex computer use，标志着 AI Agent 从「生成文本」走向「操作本地 GUI」的重要一步。这次演示由 Ari 和 Roma 共同呈现，核心卖点不是「AI 帮你用电脑」，而是「AI 在后台替你干活，同时你继续干自己的事」。

不接管你的电脑，拥有自己的独立光标

Codex computer use 最大的设计突破，是它拥有独立光标，在后台运行，不会接管用户的 Mac。这一点直接解决了此前 computer use 场景的最大痛点--用户必须放弃电脑使用权，眼睁睁看着 AI 控制屏幕。

在演示中，Codex 同时在做：

- 在 UTM 里设置虚拟机

- 在 Spotify 上播放音乐

- 在日历里添加提醒

而演示者继续在前台正常使用电脑。多任务并行，互不干扰--这才是真正意义上的「AI 队友」，而不是「AI 替代你」。

技术架构：视觉 + Accessibility 框架双轨

Codex 准确导航 GUI 的能力来自两套机制的混合：

- 多模态视觉（Multimodal Vision）：通过截图「看到」界面，按坐标点击。能处理任意 GUI，但速度受限于图像处理延迟。

- OS Accessibility 框架：通过系统可访问性数据，提取 UI 元素的文字描述--理解每个按钮的角色、标签和功能，甚至能看到当前滚出屏幕外的内容。这套机制让 Codex 对 UI 的理解超越了「像素位置」，达到「语义理解」。

对于速度敏感的任务，可以启用 Spark 模型--因为它主要依赖 Accessibility 框架而非图像处理，可以达到「超人速度」，完成消息发送、日历操作或简单调试任务比人工操作还快。

逐应用权限授权：安全边界由用户掌控

安全层面，OpenAI 实现了逐应用权限授权机制：Codex 无法看到或操作任何未经用户显式授权的应用。这意味着：

- 未授权应用里的敏感信息对 Codex 完全不可见

- 用户可以精确控制 Codex 能操作哪些工具，不能碰哪些

- 即使 Codex 被输入了恶意指令，影响范围也被限制在已授权应用范围内

这套权限模型比「给 AI Root 权限然后用沙箱隔离」要更细粒度、更符合用户直觉。

可用范围与展望

目前 Mac 用户可以立即体验 Codex computer use，Windows 支持正在路上。OpenAI 的目标，是让 AI 驱动的计算机操作成为日常工作不可或缺的一部分。

结合今天精讲一（代码作为概念模型）和精讲二（长流程状态管理）来看，Codex computer use 代表的是 AI Agent 能力扩展的第三个维度：从处理文本和代码，延伸到直接操控用户界面、完成端到端的计算机任务。三篇精读共同描绘了一个 Agent 能力版图--知识建模、长流程可靠性、GUI 操控--这三个维度正在逐步覆盖真实工作场景的完整闭环。

阅读原文：Codex 的 computer use：OpenAI 展示新的 AI 队友能力

## 速览

QCon 北京 2026 | 把自动化测试当 AI Coding 来做：小红书 GUI Agent 实战回顾 来源：小红书技术 REDtech

小红书质效研发部在 QCon 北京 2026 分享了其自研 GUI Agent 智能化测试系统的完整工程实践。春节大促期间，106 种设备 × 128 个测试场景全部由 Agent 自动跑，累计执行 4.3 万 + 次，AI 用例生成采纳率达 82%，单用例执行成本 $1，固化脚本回归 Token 消耗趋近 0。核心架构是「分层 + 双 Agent 协作 + Code-as-Action」：探索 Agent 自主执行并生成用例，执行 Agent 负责 CI 回归，执行通过后整段交互自动固化为可重复使用的测试脚本。但文章最值得关注的洞察是：就算把执行 100% 自动化，也只解决了一半问题。测试方案设计占工时 25%，执行占 60%，业务理解、知识积累这些上游工作不解决，「自动化只是把同一台戏台扛在更累的肩膀上」。正在构建 AI 测试系统的团队必读。

Agent Infra 实践复盘：Kimi 如何搭建 Agent 背后的 Database 服务 来源：Founder Park

PingCAP CTO 黄东旭复盘了 TiDB Cloud 为 Kimi K2.6 Agent 建站服务提供数据库支持的细节。核心挑战不是代码生成，而是 hosting 成本：Kimi 的建站服务中，用户每创建一个网站就需要一个独立的数据库实例，随着用户量增长，这意味着同时维护数千万个数据库实例。TiDB 的解法是虚拟数据库界面--不分配真实数据库实例，底层所有数据共享大型分布式 KV 存储，通过 DB Session Gateway 在逻辑层面「假装」每个 Agent 拥有独立数据库。这个架构让数量 Scale 成为可能，而传统的 Supabase/Neon 式「每用户一个真实实例」在这个量级下成本完全失控。黄东旭的核心判断：Scale 数量才是 Agent Infra 真正的考题。关注 Agent 基础设施的工程师和创业者值得深读。

Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 来源：Claude Blog

Anthropic 安全工程师 Jackie Bow 用 Claude Code 构建了威胁检测平台 CLUE，实现告警自动分类、自然语言日志查询和安全调查自动化，显著节省安全工程师时间并减少误报。这是一个典型的「AI 让工程师终于能构建一直想要的工具」的故事--安全领域的数据孤岛（多平台多查询语言）和上下文切换长期折磨着安全工程师，Claude Code 让个人工程师也能快速跨系统构建定制化自动化工具。关注 AI 在内部安全工具和企业场景落地的读者值得一读。

Claude 法律行业版 来源：Claude Blog

Anthropic 为 Claude 发布 20+ 个新的 MCP 连接器和 12 个法律行业实践插件，接入法律行业核心技术栈（合同生命周期系统、研究平台、文件管理、电子取证、数据房间等），并在 Microsoft Word、Outlook、Excel、PowerPoint 中原生工作，跨应用保持完整上下文。同时宣布与 Free Law Project、Justice Technology Association 合作推动法律援助普及化。法律专业人士已成为 Claude Cowork 用户中参与度最高的群体，这次扩展标志着 Claude 在垂直行业的深度集成进入加速阶段。关注 AI 行业垂直化落地的读者适合跟进。

吴恩达：AI 不会带来"失业末日"，而是"就业狂欢" 来源：Andrew Ng （@AndrewYNg）

吴恩达系统性地驳斥了 AI 将导致大规模失业的说法，援引尽管编码 Agent 发展迅猛、软件工程师招聘依然强劲的真实数据，并分析了「失业末日」叙事盛行的三个结构性原因：前沿 AI 实验室有动机夸大能力（引起关注）；AI 公司通过锚定员工薪资来收取更高服务费；企业利用 AI 叙事掩盖疫情后过度招聘的裁员。他类比了历史上的社会性恐慌（核能安全、人口爆炸、膳食脂肪），指出这类恐慌往往导致错误决策。他最终预测将迎来一场「AI 就业狂欢」，但强调劳动力技能升级的迫切性。与今天精讲一的视角互补--一篇谈开发者如何定位能力，一篇谈整体就业趋势。

Agent Skill 规范、构建与设计模式 来源：阿里云开发者

系统梳理 Agent Skill 的规范标准（name/description/compatibility 等 YAML frontmatter 字段）、三层渐进式加载机制（元数据常驻 / SKILL.md 正文触发时加载 / references 按需加载）、模型驱动触发逻辑，并深入解析 Skill-Creator 和 Writing-Skills 两种工程化开发范式及五种设计模式。Skill 规范 2025 年 12 月由 Anthropic 作为开放标准发布，目前已被 33+ 个 Agent 产品采纳，包括 Claude Code、OpenAI Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro 等。对想了解这个开放标准完整体系的开发者，这是难得的中文系统综述。

立即保护您的企业：针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 来源：VentureBeat

深度分析 Mini Shai-Hulud 蠕虫攻击--通过有效来源证明（Proof of Provenance）入侵了 172 个 npm 和 PyPI 包（5 月 11 日起），可窃取 AWS Key、SSH 私钥、npm Token、GitHub PAT、HashiCorp Vault Token、Kubernetes 服务账号、Docker 配置，以及 Claude Code 和 Kiro 的 AI Agent 配置（含 MCP Server 认证令牌）。首次在 TeamPCP 攻击中针对 1Password 和 Bitwarden 密码管理器。最危险的特性：删除包之后蠕虫仍然存活--它在 .claude/settings.json 和 VS Code .vscode/tasks.json 中安装持久化机制，在 macOS 安装 LaunchAgent、在 Linux 安装 systemd 守护进程，重启后依然运行。如果在隔离机器前先撤销 Token，Wiz 发现恶意守护进程会擦除整个 home 目录。文章提供了 6 步可执行的企业审计计划，任何使用 npm 的开发团队需要立即检查。

## 扩展阅读

OpenAI 翁家翌："启发式学习"的强化学习新范式

OpenAI 研究员翁家翌提出「启发式学习（Heuristic Learning）」新范式：让 coding agent 持续迭代手写规则和程序策略（heuristic），通过看失败、改代码、加测试、看回放的循环，在不训练神经网络、不更新权重的情况下，在 Atari Breakout 等多个强化学习基准任务上达到或超越 Deep RL 的性能。这个范式的核心洞察是：过去 heuristic 不是没用，而是没人养得起；coding agent 改变的是维护成本曲线，让长期拥有可演化规则库成为可能。对强化学习、Agent 自主演化和 Continual Learning 感兴趣的读者值得深读。

Code w/ Claude SF 2026：在 AI 指数级增长之上构建

Anthropic 旧金山开发者大会 Code w/ Claude 2026 的官方回顾：Claude Code 速率限制翻倍、Claude Managed Agents 推出新功能（Dreaming 异步任务、多 Agent 编排、Outcomes 结果跟踪、Webhooks）。核心信息：从想法到生产软件的距离正在缩短，获得最大杠杆的团队是在为 AI 指数级增长做设计，而不是在被动追赶。适合关注 Claude Code 和 Managed Agents 生态动态的开发者和工程团队。

暴跌漩涡中，软件选择主动被大模型"吞噬"

深度分析软件行业正在发生的入口重构：从「用户打开应用」转向「Agent 调用能力」。2026 年 4 月，Notion 发布官方 MCP Server，Adobe 把旗下所有产品重新打包为 Agent Skills 和 MCP 端点，合作伙伴包括 Anthropic、Google Cloud、Microsoft、OpenAI 和 AWS。文章探讨了 Skill、Plugin、MCP 等封装形态的商业逻辑--MCP 是基础设施管道，Skill/Plugin 才是真正体现专业价值的应用层，「更像 AI 时代的 App」。软件股的「SaaSpocalypse」暴跌背景下，这篇提供了一个关于软件行业主动转型逻辑的宏观视角。

AI 时代到底该怎么管一个工程团队

Claude Code 和 Cowork 两条产品线的工程与产品负责人 Fiona Fung 在 Code w/ Claude 2026 大会上分享的工程管理实践。核心判断：过去所有工程流程都基于「写代码很贵」这个假设设计，这个假设现在已经失效，流程必须全面重构。实战细节：技术辩论不再靠白板，而是让 Claude 直接搓出三个 PR 对着代码讨论；所有 PR 都有 Claude 参与，「这段代码是谁写的」这个问题开始失去意义。宝玉翻译整理，内容扎实，适合工程管理者和 AI 原生团队建设者。

## 今日阅读路径

时间有限？推荐从这三篇开始：

第一优先：构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体（基于 ADK） 今天实用性最强的一篇。持久化状态机 + 事件驱动休眠门控 + 多 Agent 委托，这三个架构模式是生产级 Agent 的必要基础。完整代码开源，可以直接参考实现。适合任何正在构建需要跨小时或跨天运行的 Agent 的工程师。

第二优先：什么是代码？ 今天认知框架最清晰的一篇。在 LLM 让代码生成变得廉价的当下，明确「代码的概念模型价值」才是开发者定位自己核心竞争力的关键。文章不长，但值得认真读完，不同阶段的工程师都会有不同层次的共鸣。

第三优先：立即保护您的企业：针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 今天最紧迫的一篇。如果你的团队在 5 月 11 日之后安装或导入过任何 npm/PyPI 包，需要立即执行文中的审计步骤。删包后蠕虫仍然存活这一特性，让这次攻击的严重性远超普通供应链事件。

如果还有时间：Codex computer use 的演示值得亲眼看看（精讲三），感受一下 AI 操控 GUI 的当前状态；吴恩达的推文提供了一个关于 AI 就业影响的清醒视角，适合饭后思考；小红书的 GUI Agent 测试实战（速览第一条）则是今天最接地气的工程案例，真实数据完整，对测试工程团队有直接参考价值。

BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https://bestblogs.dev
