# AI加速下的工程纪律升级

- 来源：ginobefun (@hongming731)
- 发布时间：2026-05-24 08:09
- AIHOT 分数：63
- AIHOT 链接：https://aihot.virxact.com/items/cmpj1kpm511vdsljwo1ubg1gr
- 原文链接：https://x.com/hongming731/status/2058339658489278827

## AI 摘要

AI能力正于安全与效率两端加速，但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞，表明瓶颈已从“发现”转向“修补部署速度”。工程侧，超高速模型虽达每秒1200 tokens，却要求开发者更慢，进行实时监督与微验收，秉持“信任但验证”原则。同时，腾讯玄武实验室实验揭示，AI Skill并非绝对有效，其优势微弱且可能增加成本，有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张，需要更精密的人类工程纪律来驾驭。

## 正文

http://x.com/i/article/2058339140899573760

# BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律

在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-24

今天的早报聚焦 AI 安全与工程纪律的双重前沿：Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞，修补瓶颈已从「发现」转向「部署」；Codex Spark 每秒 1，200 tokens 的极速之下，工程师反而需要放慢脚步，实时监督每一步输出；腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相--装上 Skill 不等于更强，有效 Skill 的核心是提供外部工具或约束性结构，而非只是模型能力的 Markdown 包装。

## 导语

2026 年 5 月的这一周，AI 的力量正在两个方向同时加速。

在防御侧，Anthropic 与约 50 家合作伙伴联手，用 Claude Mythos Preview 在不到一个月内发现超过 10，000 个高危或严重漏洞。单就 Cloudflare 一家，就找到了 2，000 个漏洞，假阳率甚至低于人工测试员。这个数字意味着：过去十年我们一直在讨论「AI 能不能发现安全漏洞」，这个问题已经不再是问题。真正的新瓶颈在于，安全 patch 的生产速度正在超过人类核查与部署的能力。

在工程侧，Codex Spark 达到了每秒 1，200 tokens--传统推理速度的约 20 倍。这个数字听起来令人振奋，但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论：速度越快，反而要求开发者越慢。当 AI 每秒产出 1，200 个 token，开发者需要实时监督、随时介入、逐步微验收，而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」，而是「信任但验证」。

与此同时，腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill，结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型，token 消耗平均增加 48%，耗时平均增加 19%。更有「虹吸效应」：13.3% 本不该触发 Skill 的请求被错误召回。

这三条线索共同指向一个核心命题：AI 能力的边界扩张，需要配套更精密的人类工程纪律。

## 精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

背景：从「能发现」到「来不及修」

软件安全领域长期面临一个核心困境：漏洞发现的速度太慢，修复的资源永远不够。传统的安全研究模式依赖人工渗透测试，每次测试覆盖有限，成本高昂，且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘--全球有数千个被广泛依赖的开源项目，几乎没有专门的安全团队。

Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是：在 AI 模型足够强大、能够被用来发动攻击之前，先用它来发现并修复互联网最关键软件的漏洞。

关键数据

在不到一个月的时间里，Claude Mythos Preview 联合约 50 家合作伙伴，共发现超过 10，000 个高危或严重漏洞。Cloudflare 一家就找到了 2，000 个漏洞，其中 400 个属于高危或严重级别，假阳率经 Cloudflare 团队评估「优于人工测试员」。

在开源代码扫描方面，Anthropic 已扫描超过 1，000 个开源项目，估算存在约 6，202 个高危漏洞。

Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中，该模型在 Capture the Flag（CTF）类型的安全挑战中表现超越人类专家--这是 Claude 模型首次在此类评测中达到这一水平。

为什么这件事很重要

这组数字改变的不只是安全研究的效率，而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。

安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞，这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署，仍然需要大量人工参与，且每一步都有行业惯例的时间窗口约束（通常是 90 天协调披露期）。

Anthropic 坦承，目前公开披露的内容是滞后指标--那些已经发现但尚未公开的漏洞，正在等待补丁被广泛部署。这本身就揭示了一个新困境：AI 找漏洞的能力，已经超过了整个生态系统消化漏洞的能力。

与今日其他故事的关联

这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明，AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点，正是因为它不是单纯地「用 Markdown 重写」安全知识，而是真正执行了漏洞发现的工作流--具备代码理解、漏洞分析、假阳判断等完整能力链路。

阅读建议

如果你关注 AI 安全能力、开源生态安全治理，或者对「AI 能力边界在哪」感兴趣，这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述，适合安全工程师和 AI 能力研究者深度阅读。

阅读原文：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

## 精讲二：快模型需要慢开发者：超高速 AI coding 时代的工程纪律

背景：推理速度的量变引发质变

过去两年，AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯：工程师倾向于构建超大 prompt 来最大化单次输出，放任 agent swarm 无人监管地运行，在多文件修改完成后才事后审查。

这些习惯在慢速推理时代勉强可行--因为 AI 生成的速度，至少给了工程师思考的时间间隙。

但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型，可以达到每秒 1，200 tokens 的源代码生成速度--传统推理速度的约 20 倍。

速度越快，纪律要求越高

Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断：当 AI 的生成速度提升到这个量级，开发者不能更快--开发者需要更慢。

具体来说，高速 AI coding 需要三个新纪律：

第一，实时监督而非批量审查。在低速推理时代，你可以等 agent 跑完一大段再来检查。在每秒 1，200 tokens 的世界里，等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。

第二，持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件，记录关键决策、约束和已知坑点，作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。

第三，信任但验证，而非相信模型。工程纪律的核心不是「给 AI 更多信任」，而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试，是防止技术债指数级堆积的关键。

硬件层的变革

Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新：将内存池直接集成到硅晶圆表面，消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时，分离推理（prefill 与 decode 分离执行）进一步释放了并行性能。

这些硬件进步意味着「每秒 1，200 tokens」不是临时的峰值，而是新的速度基准线。工程实践的调整是必须的，而非可选的。

阅读建议

这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex，并且发现 agent 跑出来的代码「很快但很乱」，这篇文章提供的框架可以帮你重新设计团队的工作流程。

阅读原文：快模型需要慢开发者：超高速 AI coding 时代的工程纪律

## 精讲三：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

背景：Skill 数量井喷，但有效性存疑

2026 年上半年，AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化，期待给大模型「加上一个 Skill，立刻变专业」。但当 Skill 数量从十几个膨胀到几百个，一个基本问题被忽视了：装上 Skill 真的就更好吗？

腾讯玄武实验室（TRACE 严选评测团队）没有用「看下载榜」或「跑一次给个分」的轻量方法，而是在统一 prompt、统一裁判、统一评测口径下，让每个 Skill 与「裸模型」（no-skill）跑完 150 组任务级对比，覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题，以及跨模型推理强度的可迁移性测试。

7 个反直觉结论

结论一：有 Skill 不一定效果更好。 150 组对照中，Skill 组胜出 62 次（41.3%），裸模型胜出 55 次（36.7%），平局 33 次（22.0%）。Skill 组只是「略占优势」，远非压倒性。胜负的关键在于：Skill 是否真正提供了裸模型能力之外的东西--清晰的输出结构、外部工具、受约束的工作流，或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill，带来的是负担而非增益。

结论二：Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求（90 条中有 12 条）被错误召回了某个 Skill。现象背后的逻辑：只要请求中出现了 Skill description 中的相关领域词，系统就可能「忍不住」去读取这个 Skill，即便任务本可以一句话解决。

结论三：多数 Skill 不能节省 token 与时间。 整体数据是：token 消耗平均多了 48%，耗时平均长了 19%。但有例外：当 Skill 提供了明确的流程、收束的输出边界时，模型反而少做了无效探索，整体消耗下降。

结论四：token 高与耗时高相关但不绑定（Pearson r = 0.73）。 存在两类反例：token 高但耗时不高（Skill 让模型读了更多上下文但没增加外部等待）；token 不高但耗时高（瓶颈在工具链、Office 脚本执行而非语言模型）。

结论五：规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度（结构规范）复评共发现 107 条规范性问题，涉及依赖、维护一致性、资源组织、触发边界四类，且多为 major 级--这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。

结论六：稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战，不是模型答错，而是工具链失联、外部 API 超时、本地执行环境异常。

结论七：提升推理强度能改善 Skill 表现，但收益不均匀。 在首批 10 个推荐 Skill 上，xhigh 推理强度 vs low：平均质量分从 3.80 提升到 4.70，50 个任务对比中 xhigh 胜 39 个，仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill；「仅文本生成」的 Skill 收益有限。

与今日其他故事的关联

这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描，正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例；精讲二的「信任但验证」工程纪律，对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起，构成了一个完整的论点：AI 能力的释放需要精密的人类系统设计，而不只是堆叠功能。

阅读建议

如果你正在设计或评估 AI Skill/Agent 工具包，这篇文章是今天最重要的实证材料。数据详实，结论反直觉但有支撑，对工程团队和产品决策者都有直接参考价值。

阅读原文：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

## 速览

【AINews】 所有模型实验室都变成了智能体实验室（Latent Space）

本期 AI 新闻回顾记录了一个重要的行业拐点：在 OpenAI 即将 IPO 的节点上，Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent；DeepSeek 首次组建「Harness 团队」--也就是今日另一篇精选文章的主角。Latent Space 的分析指出，「系统优于模型」的论断正在被行业集体验证，但背后也存在一个风险：模型与 Harness 协同训练，可能让 API 生态进一步封闭。

Google Anti-gravity 2.0：以智能体为中心的开发平台和 OS 演示（Google）

Google 在 I/O 2026 上正式发布 Anti-gravity 2.0，这是一个完全以 Agent 执行为核心的独立桌面应用，由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括：全新 CLI 体验、Anti-gravity SDK、原生语音能力，以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它--Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。

C++ 之父开撕 AI Coding：资深开发者宁愿退休也不愿伺候 AI 生成的代码（InfoQ 中文）

75 岁的 Bjarne Stroustrup 在播客中直言：AI 生成的代码「更臃肿，有更多 bug 和安全漏洞，而且很难验证」，因为 LLM 用旧代码训练，生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休--不是因为被 AI 替代，而是不想每次改代码、改 prompt，都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话：Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。

Multi-Agent 火了，但 AI 的组织病还没人治|Hao 好聊趋势（腾讯科技）

Harness 解决了 Multi-Agent 的外部协作问题（任务拆分、权限控制、日志追踪），但内部浮现了新的「组织病」：Agent 会从众、迎合、甩锅、过早共识，甚至出现公开表达与私人判断之间的断裂。文章指出，当前主流对齐技术可能加剧而非解决这些深层问题。

模型之外，皆属 Harness！DeepSeek 终于出手：招人、组队、从零造一个中国版 Claude Code（AI 前线）

DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」，明确对标 Claude Code，并提出公式：Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览，连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。

会记忆的智能体：Memory Stores 与 Dreaming 如何支撑长期上下文（Claude）

Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语：Agent Memory Stores（文件系统式持久记忆，直接挂载到 session 容器）和 Dreaming（后台整理任务，在空闲时压缩和结构化历史记忆）。这与精讲二提到的「持久上下文文件」策略高度对应，是同一问题的不同解法层次。

Context Engineering：AI Agent 上下文工程的完整指南（王俊博客）

Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论：上下文腐烂机制、四大核心策略（Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离）、四种失败模式，以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南，选这篇。

## 补充阅读

迈向光速文本生成：Nemotron-Labs 扩散语言模型（Hugging Face Blog）

NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合，并行草拟 token 后迭代优化，实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。

智能体蜂群缺失的原语：软件工厂、VM 隔离与 CLI 协调层（AI Engineer）

Lou Bichard 认为，真正的「软件工厂」缺少一个专门的 agent 协调原语，用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。

企业文档智能：从最小原型到海量语料，逐块构建 RAG 系列（Towards Data Science）

作者认为企业级 RAG 的失败并非基础设施不足，而是忽视了领域知识与文档结构，并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。

Bob McGrew 的框架：AI 时代的唯二工作--孤独天才与管理者（Garry Tan）

Garry Tan 引用 Bob McGrew 的框架：AI 将把所有工作压缩为两类--孤独天才（被 AI 千倍赋能的个体）与管理者（指挥 AI 代理的 CEO 式角色），并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。

从 Prompt 到 Pipeline：Google AI Studio、生成式媒体与 Gemma 4 本地模型栈（AI Engineer）

Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程，再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。

EP216：RAG 与智能体（ByteByteGo Newsletter）

用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。

维珍航空如何借助 Codex 加速交付（OpenAI Blog）

维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用，并将遗留代码库重构时间从数周缩短至数小时，代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。

npm 供应链：有效证书与失窃账户（VentureBeat）

2026 年 5 月发生的两起重大供应链攻击：633 个恶意 npm 包版本通过了 Sigstore 溯源验证--攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。

"五类人 AI 替代不了，企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026（量子位）

昆仑万维 CEO 方汉指出：经验不再是护城河，闭环可容错的岗位最易被替代；讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」--让别人探路，自己稳妥跟进。

AI 编程进入下半场！新基准不测补丁，拷问真正的工程能力（新智元）

Scale AI 发布 SWE Atlas，用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论：当前最强 AI 编程 Agent 是「优秀的补丁工，却仍是糟糕的工程师」--Pass@1 最高仅 43.49%，且在跨文件协调和边界覆盖上明显不足。

拆解 Anthropic：最好的 AI 公司，可能也是一种组织发明（36 氪）

从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上：ARR 从 9B 增长到 45B，估值在二级市场已超 OpenAI。核心是两个点：2021 年就聚焦 Coding 方向的战略判断，以及 Low Ego、使命驱动的组织文化。

OpenAI 工程师首次公开！教大家榨干 Codex（Datawhale）

OpenAI Codex 团队成员 Jason 分享的 8 大策略：建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。

企业养虾时代开启？Anthropic 连夜更新架构，中国大厂已经跑通（新智元）

以「养虾」为隐喻分析企业级 AI Agent 落地困境：单用户独占容器导致资源爆炸，几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。

#550. AI 资本市场狂热：Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型（跨国串门儿计划）

Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌：拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价，以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。

英伟达科学家的 20 分钟演讲：机器人终局，2040 预言（十字路口 Crossing）

Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲，用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心：「Great Parallel」战略（用 LLM 剧本重写机器人）、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。

如何拆解一个膨胀的智能体：工具、技能、子智能体与托管运行时（Claude）

Anthropic 工程师 Will 在 Code with Claude 活动中展示：当 Agent 的 system prompt 膨胀到数百行时如何拆解--哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。

用 evals 训练品味：让幻灯片生成智能体从感觉还行走向可靠（Claude）

如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程，而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。

来自 O'Reilly 的报道：偶然的编排者（Stack Overflow Blog）

介绍「AI 驱动开发」（AIDD）--一种结构化的智能体工程方法，基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验，其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。

## 今日阅读路径

时间有限的话，推荐按以下顺序阅读三篇：

第一篇：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

这是今天最有实证支撑的一篇，7 个结论直接对抗「装上 Skill 就更强」的默认假设，对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇，建立「不轻信」的基准视角。

第二篇：快模型需要慢开发者：超高速 AI coding 时代的工程纪律

在「Skill 不一定有效」的基础上，这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证--这三个原则是今天技术讨论的行动落脚点。

第三篇：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

在理解了工具有效性和工程纪律之后，用这篇文章感受 AI 能力真正到达边界时会发生什么：不是「它会不会」，而是「人类来不来得及配合」。这是今天最宏观的视角，适合收尾。
