# BestBlogs 早报：Claude Code 实践、AI 自动化悖论、百川医疗 AI

- 来源：ginobefun (@hongming731)
- 发布时间：2026-05-26 08:37
- AIHOT 分数：62
- AIHOT 链接：https://aihot.virxact.com/items/cmplym6am0k0vsl0179frdjsx
- 原文链接：https://x.com/hongming731/status/2059071471046279517

## AI 摘要

Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践：将规格说明升级为 HTML 以提升结构密度；让模型通过 ask_user_question 工具主动采访需求；采用智能体原生 DOM 验证框架，实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据，反驳 AI 会大规模裁员的叙事，认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露，公司已收缩通用模型与金融等业务线，All in 医疗大模型，并即将发布新医疗大模型 M4。

## 正文

http://x.com/i/article/2059070654180421632

# BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI

在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-26

## 导语

今天是 2026 年 5 月 26 日，欢迎收听 BestBlogs 早报 EP68，本期内容丰富。

今日早报从三个不同的切入角度，共同指向同一个深层问题：当 Agent 开始重写工程与组织的规则，身处其中的人该怎么站位？

Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式--规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架，这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据，颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择：离开通用 AI 的主干道，把整个公司押注到「造医生」这件事上。

三条精讲各有棱角，速览与补充阅读涵盖 Agent 术语厘清、异构智能扩展、AI Agent 的工资单逻辑、Karpathy 加入 Anthropic 的战略解读，以及 OpenAI 数学突破、AI 安全治理等前沿动态。

今日精选共 14 篇内容，覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度，让我们开始。

## 精讲一：Anthropic 内部如何使用 Claude Code：HTML 规格说明、让模型来采访你，以及智能体原生 DOM 验证框架

Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上，分享了他们使用 Claude Code 的三项核心实践--每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南，而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。

从 Markdown 到 HTML 规格说明

过去，Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长，依赖大段平铺文本的方式开始暴露问题：长上下文中细节容易被忽略，Agent 走偏时消耗大量 token 才能校正。

Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换，而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线--开发者可以直接在浏览器中看到设计变体（比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案），截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前，就建立了一个由人类审核确认的强基线，大幅降低了 Agent 跑偏的概率。

Tar 在内部提出的概念「HTML 文件的非理性有效性」，正是这一实践的理论出发点。结构化 HTML 不只是给模型看的--它同时也是给工程师看的，可供随时视觉验证的活文档。

让模型来采访你

Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》（The Bitter Lesson）--依赖原始数据和算力，长期来看总能胜过人工设计的约束。

在与高级 AI Agent 协作时，工程师常见的两种失误：一是在开始阶段用过多硬规则约束模型，二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程：需求其实就在你脑子里，但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你--挖掘边界条件、用户领域和隐含约束。

这个做法的前提是让 Agent 运行在 auto 模式，并配置足够高的 effort 等级（比如 X-high 或 max effort），确保模型真正主导探索阶段，而不是被提前写死的规则框死。

智能体原生 DOM 验证框架

这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析，一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约--组件不只渲染视觉界面，还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。

具体来说，在 React 应用的示例演示中：

- 每当有条目被添加或处理时，元素内的自定义跟踪属性会即时更新；

- 验证数据与视觉布局样式完全解耦，互不干扰；

- Playwright MCP 工具直接读取这一结构层，评估不变量（如计算结果、数据完整性边界）是否成立。

这套架构创造了一个统一的验证框架，能在三种环境中无缝运行：人工 Dashboard、Opus 4.7 无头浏览器、以及 CI/CD 流水线。换句话说，同一套验证契约，既能被工程师手动检查，也能被 AI Agent 自动执行，还能在持续集成中作为门禁。

为什么值得关注

这三项实践背后有一个共同逻辑：要让 Agent 真正可靠，不是靠更严格的提示词约束，而是要改造软件本身的「可读性」--让 Agent 能更精确地感知状态、提出问题、验证结果。这是从「用 AI 辅助写代码」到「为 AI Agent 设计软件架构」的范式跃迁。

这套方法还有一个重要的实践含义：人工检查与 Agent 自动验证使用同一套契约，意味着人类工程师看到的基线与 Agent 看到的基线是一致的。这避免了「AI 测过了但人看着不对」或「人看着没问题但 CI 挂了」这类典型摩擦。

对于正在将 AI Agent 引入工程流程的团队，这篇内容提供了三个可以直接落地的方向：明天就可以把你的需求文档改写成结构化 HTML 试试看，感受一下密度与清晰度的差异；在 Claude Code 会话里试试让模型先用 ask_user_question 来问你，而不是你给它一堆约束。

阅读完整内容 →

## 精讲二：AI 悖论：越自动化，越需要人，活反而越多

「AI 会消灭大量工作岗位」--这是过去两年最常见的主流叙事之一。Every 公司 CEO Dan Shipper 在 Lenny's Podcast 上，用自家公司的真实数据直接反驳了这个叙事：深度拥抱 AI 之后，Every 团队一年内从 15 人扩张到近 30 人，规模翻倍了。

这不是个例，而是有结构性原因的现象。

为什么自动化反而带来更多人？

Dan 的解释非常清晰。自动化将通用技能商品化--之前需要专门人才完成的工作，现在 AI 可以轻松处理。但商品化同时带来两件事：一是需求本身的爆炸式增长，因为门槛降低了；二是隐性管理层的产生，因为每一个被自动化的流程都需要有人在旁边审查边界情况、修复下游问题、把控质量。

换句话说：AI 把「做事」的成本压低了，却提高了「判断什么该做、做得对不对」的价值。当 AI 大量生产低质量通用内容（Dan 用「slop」来形容）时，个人品味、定制化格式、深度概念性思考反而成为稀缺的差异化要素。

企业软件不会消失，反而更贵了

Dan 明确反对「SaaS 死亡论」。他的逻辑是：AI Agent 通过 API 直接与软件交互，反而大幅提高了软件的使用频次和用户量。那些深度使用 AI 自动化的公司，年度软件支出实际上是在增加的，因为需要为更多被 AI 程序化调用的专用工作流付费。

受益最大的两类角色

Dan 指出了在这波浪潮中占据最大杠杆位置的两类人：

- 能独立驱动全产品周期的产品经理：具备高度策略性思维的 PM，现在可以把产品直觉、用户洞察和 AI 生成能力直接结合起来，不再依赖漫长的工程反馈循环，自己就能构建工具。

- 全栈设计师：创意团队可以在 Cursor 或 Codex 等环境中直接实现复杂的 UI/UX 组件和动效，把功能性代码通过自动化 Pull Request 直接推到代码仓库。

技术壁垒正在快速崩塌，传统的「产品、设计、工程」职责边界也在消融。能横跨这三个领域的人，在 AI 时代的杠杆是最大的。

对普通从业者的启示

Dan 给从业者的建议是主动「骑上模型」--以好奇和玩耍的心态对待每一次新模型发布，持续用不同提示词做实验，在实际工作中寻找 AI 能真正帮到自己的创造性时刻。

这和许多「AI 威胁论」的叙事形成了鲜明对比：当系统性转型来临时，真正的问题不是「会不会被替代」，而是「你是在骑着这波浪潮，还是在被它卷走」。

与今日其他内容的关联

这个观点和速览中的「Agent 公司的对手是工资单」一文形成直接呼应：两者都在说，AI Agent 的真正竞争维度不在软件领域，而在人力资源领域。而 Anthropic 工程实践（精讲一）和 Google DeepMind 的规模化 Agent 运营（速览）则从工程侧印证了这一趋势--当 Agent 能可靠运行，那些能有效使用 Agent 的人才的杠杆将被大幅放大。

阅读完整内容 →

## 精讲三：对话王小川：离开通用人工智能的主干道之后

一年多前，王小川带着百川智能做了一个在当时看起来非常逆势的决定：大幅缩减通用模型团队，关闭金融等多条行业线，All in 医疗大模型。彼时整个大模型行业热闹非凡，平均三天就有一个新版通用大模型面世。

而今，他选择在新医疗大模型 M4 发布前夕，接受《智能涌现》的深度对话。读完这篇访谈，最强烈的感受不是「他做对了」或「他做错了」，而是：这是一个真正想清楚自己要做什么的人，做出的一个清醒的非共识选择。

「造医生」不是「复制医生」

王小川的医疗路径有一个关键的底层逻辑：他想做的不是给医生提效，而是增加医生的供给。「我们要造更多的医生」。

这两者的区别非常根本。给医生提效的路径，在中国医疗市场里天花板很低--中国医生平均每天看 50-80 个病人，已经够忙，提效的商业价值在中国医疗支付体系下很难变现。而「造医生」的路径，是把 AI 直接面向患者，做主动的、长期的、全生命周期的健康管理。

M4 模型在这个方向上有具体落地：在 OpenAI 发布的 HealthBench 测评集的 Hard 和 Professional 两个子集上都排名第一，且没有针对 Benchmark 做特殊训练；在北京儿童医院的多学科会诊场景中，AI 儿科医生与专家会诊结果吻合率达 95%，已向河北省 150 余家县级医院下沉。

Agent 产品「百小医」：AI 家庭医生

在 C 端，百川推出了 Agent 产品「百小医」。它的定位是一个会主动跟进的 AI 家庭医生--不只回答问题，还会在患者就医前帮你梳理病情准备给医生，做处方分析，管理病例，定时提醒吃药和复诊。

王小川特别强调了这套产品底层的永久性记忆存储--不是上下文那套滑动窗口模式，而是有数据库结构的存储：体检报告、对话中提到的症状、血压、用药情况都能被记录，支持全生命周期的健康数据管理。这一点对医疗场景至关重要，因为通用模型大多数时候根本不知道该存用户的什么数据。

「沉寂」的代价：合伙人离开，上市推迟

这条路不是没有代价的。在决策过程中，有同学认为做通用模型才是正确方向，投资人也有意见，部分合伙人在那个时候选择离开。团队从高峰期压缩到不超过 300 人，原定的上市节奏也因此延迟。

王小川对此的态度是坦然而非辩解：「如果没有转型，继续走主流道路，你也会有同等程度的焦虑。」他更难以接受的，是在公司快成立两周年时，「不知道自己到底在干什么，在创造什么价值」。

对行业的另一种参照

对于那些仍在同质化竞争中的 AI 公司，王小川的案例提供的不是「去做医疗」的方向建议，而是一种更底层的路径--找一个你真正相信的问题，然后用足够长的时间回答它。这本身就是对「ALL in 通用 + 快速上市」这一主流叙事的一个值得认真对待的反例。

他的判断是：「AI 时代只要交付给用户足够重要的价值，商业化会是水到渠成的事。」

王小川的「反主流」逻辑为何值得认真对待

在 Coding Agent 成为史上增长最快的应用场景这件事发生之前，没有多少人会相信它能在几个月内爆发。王小川的类比是：如果这样的事能发生在 Coding 领域，那「造医生」领域的旧边界同样可以被打破。医疗反馈周期长、商业化路径难--这些曾经是行业共识，但共识本身就是时代惯性，而不是不可改变的物理定律。

这篇访谈最值得保留的不是他给出了什么答案，而是他提出问题的方式：公司快成立两周年了，你是否知道自己在创造什么价值？这个问题，对个人和团队都同样有效。

阅读完整内容 →

## 速览

Harness、Scaffold 以及值得厘清的 AI 智能体术语（Hugging Face Blog）

AI Agent 领域的术语正在快速膨胀，许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表，针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念，给出了清晰实用的区分。不追求覆盖所有术语，聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读，很有价值。

异构智能如何成为 AI 推理扩展的下一种范式（AI Engineer）

Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出：单一大模型 + 均质算力的扩展方式，正在推理阶段撞到性能和成本天花板。下一步是异构智能--让模型、Agent、工作流与专用芯片协同路由，根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。

Agent 公司的对手是工资单，不是 SaaS 预算|SVTR Signal #017（硅谷科技评论）

这篇分析的核心观点非常锐利：用 LTV/CAC、净留存率这套 SaaS 指标来看 AI Agent 公司，会系统性低估它们的成长上限。全球企业 IT 预算约 5000 亿美元量级，而人力相关支出（薪资 + 外包 + 招聘）是其十倍以上。Contrario 6 个月做到 600 万美元 ARR，Viktor 10 周达到 1500 万美元年化收入--这不是产品特别好，而是买单人从 CIO 变成了 HR 总监，决策逻辑从「软件采购」变成了「人力替代」。与今天精讲二的 Dan Shipper 数据形成呼应。

164 倍 ROI，SaaStr 把自己活成了最激进的 AI 实践|SaaStr AI Annual2026 实录（随机小分队）

Jason Lemkin 在 SaaStr AI Annual 2026 上直接用自家数据开讲：两个 AI VP（分管 Marketing 和 Customer Success）整月费用合计 $254，替代约 $50 万年度人力成本。ROI 164 倍。接着是 Canva 讲「如何让 Agent 主动选择你」，Monaco CEO 讲「AI 做得好与做不好的分界线在哪」。三场分享构成一张完整的地图：钱不是变少了，而是在搬家。

Google DeepMind 如何大规模运行智能体系统（AI Engineer）

Google DeepMind 工程师 Ian Ballantyne 和 KP Sawhney 公开展示了内部 Anti-Gravity 编排平台的核心机制：多 Agent 并行、基于浏览器的沙箱测试、DOM 实时检查、Scratchpad 日志追踪、Token 配额管理、轨迹存储与技能机制，以及自动化代码评审流水线。Anti-Gravity 表面看是一个类 VS Code 的编码界面，但其核心是可扩展的编排框架，支持多 Agent 跨分支并发运行，并通过 Human-in-the-loop 机制让工程师随时介入中断或修改任务。与今天精讲一的 Anthropic 实践对比来看，两家顶级 AI 实验室在 Agent 工程化路径上有明显的相似选择：都强调 DOM 契约验证、都重视浏览器沙箱测试。

Andrej Karpathy 加入 Anthropic 的真正原因：从 AutoResearch 原型看递归自我改进的战略布局（Wes Roth）

Wes Roth 深度解析了 Karpathy 加入 Anthropic 预训练团队这一事件的战略含义。核心不是人才争夺，而是 Karpathy 在离开 OpenAI 后独立开发的 AutoResearch 原型--30 行代码实现的「Karpathy Loop」，通过自主优化循环实现了 11% 的训练加速。Anthropic 把他放进预训练部门，直接向 Nick Joseph 汇报，任务是用 Claude 加速预训练研究，本质上是一次高风险的递归自我改进（RSI）实验。

Cursor Composer 2.5 如何用更快、更便宜的编码模型挑战 Claude Code（Theo - t3.gg）

Cursor 发布了专门针对编码任务的 Composer 2.5 模型：输入成本 $0.50/M tokens，输出成本 $2.50/M tokens，比主流前沿通用模型便宜约 5-6 倍。Theo 分析了其背后的 RL 后训练方法，以及 SpaceX 提供算力的传闻背景。Cursor 的策略是在 Composer 的生态内锁定用户，通过专注 coding 场景的后训练获得任务特化优势。Theo 也指出了现实限制：Composer 2.5 在非代码推理和长上下文场景表现欠佳。这是「大而全的基础模型」与「小而专的任务特化模型」之争的典型案例。

## 补充阅读

OpenAI 解决数十年数学难题：Erdős 突破（Wes Roth）

OpenAI 内部未发布的通用推理模型，成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想--这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识，独立生成了一篇真正可发表的原创数学研究成果，这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说，这是一个值得细看的里程碑事件。

Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论（Anthropic News）

2026 年 5 月 25 日，教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》（On safeguarding the human person in the time of artificial Intelligence）。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话，认为 AI 引发的深刻问题早已超出计算机科学范畴，需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。

所有算力都是食物：AI 抗拒关闭、自我复制与全球算力治理（Cognitive Revolution）

Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险：关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式，以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高，不是假设性的末日讨论，而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。

高德 AI Agent 自主增长系统实践：从想象到可运行的工程系统（ginobefun）

高德在 PC 站 SEO 增长场景下，利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括：将长任务拆解为 workflow 和状态机（DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED），通过心跳、超时、重试保证链路可控；用文件化 Memory 管理产物（PRD、设计、架构明确落盘）；Builder 与 Evaluator 职责彻底分离（零信任原则）；Evaluator 通过 Benchmark 数据集被评估，三轮优化后均分从 64.5 升至 83.4；优先快速失败，低成本检查先于高成本验证。最后强调：现阶段更有价值的是降低人工介入频率而非追求 100% 无人化--这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。

## 今日阅读路径

如果你今天时间有限，建议按以下顺序读三篇：

1. 精讲一：Anthropic 内部的 Claude Code 实践 - 如果你正在构建 AI Agent 或使用 Claude Code，这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约，三个方法可以直接在工作中尝试。

1. 精讲二：AI 悖论--越自动化越需要人 - 用真实数据反驳「AI 会消灭工作」的叙事，同时指出 PM 和全栈设计师将是最大受益者。如果你在思考自己的职业方向，这篇值得认真读。

1. Agent 公司的对手是工资单，不是 SaaS 预算 - 这篇分析改变了看待 AI Agent 公司估值和商业模式的框架。如果你在做投资判断、业务规划或是在一家 AI 公司，这是今天最值得读的战略视角。

如果还有时间，精讲三的王小川对话适合慢读，它提供了一个关于「在 AI 时代如何做非共识选择、坚守原始初心」的真实案例，读完很可能会触发你重新思考自己的方向定位。

对工程师而言，额外推荐 Hugging Face 的 Agent 术语词汇表，5 到 10 分钟能让你和团队成员在核心术语上快速对齐，有效减少日常沟通摩擦。