BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律

在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-24

今天的早报聚焦 AI 安全与工程纪律的双重前沿：Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞，修补瓶颈已从「发现」转向「部署」；Codex Spark 每秒 1，200 tokens 的极速之下，工程师反而需要放慢脚步，实时监督每一步输出；腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相--装上 Skill 不等于更强，有效 Skill 的核心是提供外部工具或约束性结构，而非只是模型能力的 Markdown 包装。

导语

2026 年 5 月的这一周，AI 的力量正在两个方向同时加速。

在防御侧，Anthropic 与约 50 家合作伙伴联手，用 Claude Mythos Preview 在不到一个月内发现超过 10，000 个高危或严重漏洞。单就 Cloudflare 一家，就找到了 2，000 个漏洞，假阳率甚至低于人工测试员。这个数字意味着：过去十年我们一直在讨论「AI 能不能发现安全漏洞」，这个问题已经不再是问题。真正的新瓶颈在于，安全 patch 的生产速度正在超过人类核查与部署的能力。

在工程侧，Codex Spark 达到了每秒 1，200 tokens--传统推理速度的约 20 倍。这个数字听起来令人振奋，但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论：速度越快，反而要求开发者越慢。当 AI 每秒产出 1，200 个 token，开发者需要实时监督、随时介入、逐步微验收，而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」，而是「信任但验证」。

与此同时，腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill，结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型，token 消耗平均增加 48%，耗时平均增加 19%。更有「虹吸效应」：13.3% 本不该触发 Skill 的请求被错误召回。

这三条线索共同指向一个核心命题：AI 能力的边界扩张，需要配套更精密的人类工程纪律。

精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

背景：从「能发现」到「来不及修」

软件安全领域长期面临一个核心困境：漏洞发现的速度太慢，修复的资源永远不够。传统的安全研究模式依赖人工渗透测试，每次测试覆盖有限，成本高昂，且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘--全球有数千个被广泛依赖的开源项目，几乎没有专门的安全团队。

Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是：在 AI 模型足够强大、能够被用来发动攻击之前，先用它来发现并修复互联网最关键软件的漏洞。

关键数据

在不到一个月的时间里，Claude Mythos Preview 联合约 50 家合作伙伴，共发现超过 10，000 个高危或严重漏洞。Cloudflare 一家就找到了 2，000 个漏洞，其中 400 个属于高危或严重级别，假阳率经 Cloudflare 团队评估「优于人工测试员」。

在开源代码扫描方面，Anthropic 已扫描超过 1，000 个开源项目，估算存在约 6，202 个高危漏洞。

Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中，该模型在 Capture the Flag（CTF）类型的安全挑战中表现超越人类专家--这是 Claude 模型首次在此类评测中达到这一水平。

ginobefun@hongming731 · X

63导出 Markdown

2026-05-24 08:09·40天前

在 X 看原推· x.com

AI 摘要

AI能力正于安全与效率两端加速，但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞，表明瓶颈已从“发现”转向“修补部署速度”。工程侧，超高速模型虽达每秒1200 tokens，却要求开发者更慢，进行实时监督与微验收，秉持“信任但验证”原则。同时，腾讯玄武实验室实验揭示，AI Skill并非绝对有效，其优势微弱且可能增加成本，有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张，需要更精密的人类工程纪律来驾驭。

http://x.com/i/article/2058339140899573760

BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律

在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-24

导语

2026 年 5 月的这一周，AI 的力量正在两个方向同时加速。

BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律

导语

精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律

导语

精讲二：快模型需要慢开发者：超高速 AI coding 时代的工程纪律

精讲三：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

速览

补充阅读

今日阅读路径

精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

精讲二：快模型需要慢开发者：超高速 AI coding 时代的工程纪律

精讲三：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

速览

补充阅读

今日阅读路径