四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论：

· 代码产出约 4 倍，实际交付价值仅约 +10%：多出来的 90% 是「待验证的代码」 · 代码 churn +861%、缺陷率 9%→54%：质量与可审查性在下降 · 零 review 合并的 PR +31%、review 时长 +441%：不是「决定不 review」，而是 review 跟不上量 · AI 共著 PR 问题数约 1.7 倍：弱点可预测：逻辑、安全、可读性

最重要的前提：你在光谱的哪一端

Osmani 反复强调：大多数争论是不同处境的人互相 prescribing。

三个变量决定 review 策略： · 爆炸半径 - 坏了会怎样（无人用 vs 用户/金钱/PII） · 代码寿命 - 下周重写 vs 维护十年 · 理解者数量 - 只有你 vs 整个团队

solo 无用户：可 lean on 测试 + 自动化，轻量 review；但「无用户 ≠ 无验证」，跳过 review 只是把债往后推。

有用户的中期（最危险）：仍沿用 solo 习惯，直到事故/postmortem 才醒悟。

大型老系统 + 多用户：文中所述所有 alarming 数据全部适用，review 同时承担 bug 捕获、知识传递、 comprehension debt 防控。

Review 的本质变了

传统 review：作者在脑子里已有 intent，reviewer 核对推理。

Agentic review：agent 有 reasoning，但几乎从不随 diff 附上；reviewer 常是第一个真正读这段代码的人，还要重建从未写下来的 intent--这比旧模式更难、更慢，解释了 review 时长暴增。

可解的部分（工具问题）： · 要求 agent 提交：做了什么、排除了什么、决策日志 · 把 intent 重建成本推回提交方，而非 reviewer 吸收

不可完全外包的部分（人的问题）： · 「这段代码对不对」 vs 「该不该做这件事」 · 没人写进 spec 的需求缺口 · 高爆炸半径下的 accountability

AI Review 工具：不要选「最好的一个」，要跑「不同的几个」

实证（146 个 PR、4 个 reviewer 并行）： · 93.4% 的 flagged 位置只被 1 个工具发现 · 四个工具从未同时 flag 同一行 · 各有强项：Greptile（正确性/架构）、CodeRabbit（覆盖面+修复）、Seer（生产严重度）

结论：同质模型 × 4 = 一个 reviewer + 四倍账单；异构 reviewer 组合才接近「对抗式审查」。高 stakes 跑两个性格不同的；solo 一个 good reviewer + 真测试通常够用；必须在自己代码库上实测。

人的角色：从 loop 里到 loop 上

Osmani 的立场（也是文中最具操作性的框架）： · 「人类逐行读每个 diff」已不现实 · 「让 loop 自审自判然后走人」同样危险 - 同源模型的 correlated blind spots，会形成借来的 confidence · 正解：human on the loop，而非 in the loop · 机器：第一遍 triage、低风险/fast-track、重复性检查 · 人：merge 决策、高风险路径、plan/judgment、抽样审计

meng shao@shao__meng · X

67导出 Markdown

2026-06-16 09:01·17天前

在 X 看原推· x.com

AI 摘要

数据指出，AI辅助下代码产出约4倍，但交付价值仅+10%，90%为待验证代码；代码churn+861%，缺陷率从9%升至54%；零审查合并PR增加31%，审查时长+441%。实测146个PR发现，93.4%被标记位置仅一个工具发现，四工具从未同时标记同一行。策略建议：按风险分层（配置改→linter，核心路径→双AI+人）、前置triage、提高PR门槛（要求意图说明+测试输出）、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。

Agentic Code Review

作者 @addyosmani

随着工程瓶颈已从「写代码」转移到「能否信任代码」，代码审查成为当前软件工程里杠杆最高的能力。

四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论：

最重要的前提：你在光谱的哪一端

Osmani 反复强调：大多数争论是不同处境的人互相 prescribing。

三个变量决定 review 策略： · 爆炸半径 - 坏了会怎样（无人用 vs 用户/金钱/PII） · 代码寿命 - 下周重写 vs 维护十年 · 理解者数量 - 只有你 vs 整个团队

solo 无用户：可 lean on 测试 + 自动化，轻量 review；但「无用户 ≠ 无验证」，跳过 review 只是把债往后推。

四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论：

最重要的前提：你在光谱的哪一端

Review 的本质变了

AI Review 工具：不要选「最好的一个」，要跑「不同的几个」

人的角色：从 loop 里到 loop 上

四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论：

最重要的前提：你在光谱的哪一端

可执行的 Review 体系（重要！）

对团队负责人的含义

Review 的本质变了

AI Review 工具：不要选「最好的一个」，要跑「不同的几个」

人的角色：从 loop 里到 loop 上

可执行的 Review 体系（重要！）

对团队负责人的含义