两条底层方法论

1. 错误即资产：写入规则，而非口头纠正 Boris 的核心习惯：每次 Claude 犯错，不直接说「下次别这样」，而是写入 CLAUDE.md、Skill 或类似持久化机制。

逻辑是：口头纠正只影响当前会话；规则沉淀后，agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。

2. Verification（验证）≠ 单元测试多数人把 verification 理解成 lint、类型检查、单元测试--这些早已自动化，不是 agent 时代的重点。

真正的 verification 是：agent 能否亲自「跑起来」验证结果。 · 早期案例：让 Opus 4 写完功能后，在 bash 里启动另一个 Claude CLI 自测。 · 现在：iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践：桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界；若 staging 异常，先读 Slack 判断是否环境问题；修完后更新 Skill，形成闭环。

要点：验证能力往往需要针对具体产品定制，无法一键通用。

Loops/Routines：从「人用工具」到「系统替人值守」

Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。

典型案例： · 某工程师为 Voice Mode 设 routine：监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine：5 小时未响应的 bug 自动修复，易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug，还没动手，Claude 提示「另一个 Claude 已修好」。

组织影响： · 代码评审、CI 修复、rebase 等琐事，团队成员已很久没亲手做。 · 多个人的 Claude 并行工作，形成「隐形协作网」。

重点：把工程运维流程产品化、自动化。

Auto Mode：取代 Plan Mode 的默认选择

Boris 明确表示：Plan Mode 已基本不用，全面切到 Auto Mode。

原因： · Opus 4 ~ 4.5 仍需显式规划；从 4.6、尤其 4.7 起，模型已能自主规划。 · Auto Mode 的价值是：启动 agent 后即可转向下一个任务，无需盯屏点确认。

安全设计的反直觉结论：人工逐条审批 99% 都会点「是」的权限提示，反而更危险；Auto Mode 用独立分类模型筛风险，人只关注被拦截的少数异常，整体更安全。

上线前流程： · 收集数千条 agent 轨迹 + 权限请求，训练分类器； · 红队 prompt injection、渗透测试； · 建 eval，确保已知攻击全部被拒； · 内部团队继续攻击、迭代。

Boris 认为：「把 prompt 路由给另一个模型做安全检查」--他最初认为行不通，实测却效果很好。这反映基于大模型构建产品时，许多旧工程直觉需要重写。

meng shao@shao__meng · X

68导出 Markdown

2026-06-09 08:50·24天前

在 X 看原推· x.com

AI 摘要

Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论：每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正；Verification指agent亲自跑起来验证（如启动模拟器、computer use测试）。Auto Mode取代Plan Mode，用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维（如监听GitHub bug自动提PR）。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行，产品形态将巨变。

Claude Code 上线一周年：演进与方法论回顾

来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu，从一年前首次内部 demo 只有两个 Slack 点赞，到现在绝对主流 Coding Agent，这一年 Claude Code 到底做对了什么？ https://www.youtube.com/watch?v=Hth_tLaC2j8

两条底层方法论

1. 错误即资产：写入规则，而非口头纠正 Boris 的核心习惯：每次 Claude 犯错，不直接说「下次别这样」，而是写入 CLAUDE.md、Skill 或类似持久化机制。

逻辑是：口头纠正只影响当前会话；规则沉淀后，agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。

2. Verification（验证）≠ 单元测试多数人把 verification 理解成 lint、类型检查、单元测试--这些早已自动化，不是 agent 时代的重点。

两条底层方法论

Loops/Routines：从「人用工具」到「系统替人值守」

Auto Mode：取代 Plan Mode 的默认选择

组织变革：AI 必须成为流程中心

两条底层方法论

多 Agent 时代的工具形态

Context Minimalism（上下文极简主义）

对未来的判断

Loops/Routines：从「人用工具」到「系统替人值守」

Auto Mode：取代 Plan Mode 的默认选择

组织变革：AI 必须成为流程中心

多 Agent 时代的工具形态

Context Minimalism（上下文极简主义）

对未来的判断