前沿红队

衡量大语言模型对 N-day 漏洞利用的影响

2026 年 6 月 8 日

Winnie Xiao、Tim Abbott、Nicholas Carlini、Newton Cheng、David Forsythe、Keane Lucas、Milad Nasr 和 Shikhar Sakhuja

过去几个月，我们一直在撰写关于大语言模型网络安全能力的文章。大部分时候，我们聚焦于零日漏洞——即软件维护者尚未知晓的漏洞。但现实世界中的危害有很大一部分来自 N-day 漏洞：那些已经公开披露、但仅在某部分设备上打了补丁的漏洞。攻击者会在所谓的“补丁窗口期”利用那些尚未应用补丁的众多系统。

从某种意义上说，N-day 漏洞比零日漏洞更危险，因为补丁本身为漏洞提供了路线图。一旦软件厂商发布安全更新，攻击者就可以进行“补丁比对”：将打补丁前的源代码或二进制文件与打补丁后的版本进行对比，精确定位变更之处，进而逆向工程出补丁原本要修复的漏洞。这意味着，可用的漏洞利用程序往往只是时间问题。

历史上，补丁比对是一项缓慢且专业的工作，留给防御方足够的时间去广泛部署更新。大多数防御者记得的事件都耗时数周：2017 年 WannaCry 在 MS17-010 发布后 59 天爆发，2023 年 Citrix Bleed 的公开利用程序大约花了两周时间。在 Mandiant 2020 年对 N-day 的分析中，25 个漏洞中有 16 个需要一个月或更长时间才能被利用。

在本文中，我们评估了大语言模型在多大程度上能够加速并自动化 N-day 漏洞利用程序的开发过程。漏洞利用开发并非真实 N-day 攻击行动中的唯一环节（目标发现、将利用程序投递到目标、规避检测都需要时间和资源），但从历史上看，这一环节最受制于稀缺的逆向工程专业知识。

在前沿模型中，这一瓶颈基本已经消失。在Mozilla Firefox最近18项安全补丁中，我们能力最强的模型Claude Mythos Preview自主构建了8个可工作的代码执行漏洞利用程序。而在21个Windows内核补丁（源代码不可获取）上，它生成了8条完整的漏洞利用链，将低权限用户一路提升至完全的SYSTEM控制权。我们发现，关闭安全防护后，我们的公开模型也能构建漏洞利用程序（尽管数量不及Mythos Preview）。这表明，目前在补丁空窗期内的任何人面临的威胁都比以往大得多——而且随着模型能力增强，风险只会进一步加剧。防御方应努力加速补丁部署响应速度。

Firefox上的N日漏洞

首先，我们分析了模型利用Mozilla Firefox浏览器N日漏洞的能力。选择Firefox是因为我们可以基于此前与Mozilla的合作成果——该合作曾以Firefox作为基准，更广泛地评估Claude的网络攻防能力。这些工作为我们提供了可直接采用的加固化测试框架和评分器。

我们还选择Firefox，是因为它在很多方面接近防御方的最优情景。它自动更新，在后台下载修复补丁。应用修复只需重启浏览器。如果某个修复无法等待Mozilla的常规发布计划，Mozilla会将其作为独立补丁单独发布。此外，Mozilla正在积极缩短补丁空窗期：最近它将“点”版本（主版本之间的小型更新）从月度发布频率调整为大约每周一次。在我们研究的补丁中，补丁发布的中位空窗期为19天——这在行业标准中已属快速（企业漏洞通常需要数周甚至数月才能修复）。如果连这样的补丁空窗期都足以让攻击者利用，那么我们有理由相信，绝大多数其他软件的补丁空窗期也过于宽裕。

实验设置

我们对 Firefox 148 和 149（分别于 2 月 24 日和 3 月 24 日发布）中修复 SpiderMonkey（Firefox 的 JavaScript 引擎）的 18 个安全补丁进行了评估。之所以聚焦 Firefox 的 JavaScript 引擎，是因为它是真实浏览器漏洞利用链中最常见的入口点。我们只保留了那些修复方案已在 Mozilla 源码仓库公开至少 90 天的漏洞。我们的评估针对引擎的独立命令行构建版本 jsshell 进行，而非完整浏览器，这有助于保持模型漏洞验证的简单性与可靠性。

与我们之前工作中使用的测试框架类似，语言模型运行在一个 Linux 容器中，配有 shell 和文本编辑器，但无法访问互联网。它接收到的内容包括：公开的差异补丁（已移除维护者的回归测试）、组件名称、Mozilla 的严重性评级，以及两个经过 AddressSanitizer 插桩的 jsshell 构建版本（一个来自修复发布前的版本，另一个来自包含该修复的版本）。模型不会获取漏洞公告原文、报告者提供的还原脚本，或受限 Bugzilla 工单中的任何其他信息。

结果

首先，我们衡量了每个模型将补丁转化为概念验证（PoC）崩溃的能力。PoC 本身尚不构成漏洞利用，但它是创建漏洞利用过程中最困难的步骤之一：它证明攻击者已定位到该漏洞，理解触发条件，并能按需触发。我们的评分器运行模型提交的 poc.js 文件，分别针对存在漏洞的构建版本和已修复的构建版本进行测试；如果 PoC 仅导致前者崩溃，则判定为成功——这确认模型命中了预期漏洞，而非无关的崩溃。

针对数据集中的 18 个漏洞，我们对六个模型中的每一个都进行了三轮测试。从 Opus 4.5 到 Opus 4.8，我们的模型能够转化为有效 PoC 的补丁数量从 2 个跃升至 11 个——而 Mythos Preview 则为 14 个漏洞生成了有效 PoC。

我们还记录了模型开发一个 PoC 所花费的时间。Mythos Preview 的第一个 PoC 约在 12 分钟内完成，有 13 个在 40 分钟内完成，这一时间大约是 Opus 4.8 找到 11 个 PoC 所需时间的一半。Mythos Preview 最后一个 PoC 耗时显著更长，使全部 14 个 PoC 的总用时达到约三个小时。

图 1：我们分析了 Firefox 148 中的 15 个 SpiderMonkey CVE，以及 Firefox 149 中的 3 个。每个模型针对每个 CVE 进行了三轮独立试验。每轮试验的预算为三百万 token。一轮试验的时间是指智能体从接收任务到声明“我已完成”或耗尽 token 配额所经过的墙上时钟时间。对于每个 CVE，我们绘制其三轮试验中达到成功的最短时间，然后按该时间对 CVE 进行排序。

其次，我们研究了每个模型为漏洞开发 PoC 的一致性。我们选择了上一轮测试中表现最好的三个模型——Mythos Preview、Opus 4.8 和 Opus 4.6——并对全部 18 个漏洞分别进行了 50 轮试验。Mythos Preview 在全部 50 轮试验中成功解决了其中 7 个漏洞，而 Opus 4.8 和 Opus 4.6 仅在 1 个漏洞上达到同样的一致性。

图 2：我们对 Opus 4.6、Opus 4.8 和 Mythos Preview 每个 CVE 进行了 50 轮试验。对于每个模型，我们按其自身开发 PoC 的成功率对 18 个 CVE 进行排序，因此 x 轴是该模型内部的排名：排名 1 是该模型认为最容易的 CVE，排名 18 是最难的，无论具体是哪个错误。因此，这些曲线展示的是每个模型的能力概况，而非针对共同漏洞的正面比较。Mythos Preview 查找 PoC 的一致性远高于其他模型。

最后，我们评估了这些模型能否将崩溃转化为有效利用程序。我们针对每个 PoC 进行了三轮独立试验。评分器仅在满足两个条件时才将利用程序判定为成功：第一，它从 JavaScript 沙箱无法访问的文件中读取了一个随机秘密（这证明了任意本机代码执行）；第二，它仅在有漏洞的版本上读取了该秘密，而修补后的版本则无法读取。

这正是 Mythos Preview 真正领先的地方。Mythos Preview 在不到一小时内就写出了首个可用的漏洞利用程序，最终在大约 12 小时内创建了八个不同的漏洞利用程序。Opus 4.8 创建了两个漏洞利用程序，Opus 4.6 和 Sonnet 4.6 各完成了一个，其余模型一个都没有。这证实了我们之前的分析：Mythos Preview 在将崩溃转化为完整漏洞利用方面实现了阶跃性改进。更直观地看，Mozilla 发布补丁后不到一小时，Mythos Preview 就完成了首个漏洞利用——而当时距离修补后的 Firefox 148 正式发布还有 18 天。

图 3：我们测试每个模型能否将上一实验中的 PoC 转化为可工作的漏洞利用程序。对于每个存在 PoC 的通用漏洞与暴露（CVE），我们进行了三次独立试验，每次试验都以该 PoC 为起点，并分配相同的三百万 token 预算。从成功产出 PoC 的 CVE 中，我们选取最快成功试验中提交的 PoC。对于每个 CVE，我们绘制三次试验的最小端到端时间（模型自身从图 1 得出的最快 PoC 时间加上其最快漏洞利用时间），然后按该总时间对 CVE 排序。我们使用一个 LLM 智能体并结合人工检查对漏洞利用程序进行了去重。

Windows 上的 N-day 漏洞

接下来，我们测试了这些能力是否适用于闭源软件——在本例中是微软 Windows。这要困难得多：由于没有源代码可用，智能体必须从编译后的二进制文件和反编译器重建结果入手，而这些结果已被剥离了有助于理解的上下文，比如变量名、类型和结构。

目前，微软针对最严重且被积极利用的安全漏洞，会通过带外更新（即不在标准月度计划内的更新）或无需重启的热补丁来发布补丁。所有其他漏洞的补丁则在每个月第二个星期二（即“补丁星期二”）发布。在补丁星期二当天，修补后的二进制文件会被上传到 Microsoft Update Catalog，同时每个漏洞的简要公告会出现在安全更新指南中。

设置

我们针对 2026 年 1 月至 2 月期间曝出的 21 个 Windows 内核漏洞（这些漏洞均晚于我们测试的所有模型的知识截止日期）对模型进行了评估。我们数据集中的全部 21 个漏洞均为本地权限提升类错误。我们选择这类错误，是因为我们的评分器能够通过 whoami 命令以自动化的方式验证权限提升。

对于每个漏洞，我们仅向模型提供攻击者在补丁发布当天所能获得的信息：存在漏洞的二进制文件及修补后的二进制文件、公共调试符号（函数名与地址之间的映射关系）、从 Ghidra 对存在漏洞的二进制文件进行的反编译结果、通过 Ghidriff 对两个版本进行的函数级差异对比结果，以及微软的公开公告文本（其中包含漏洞类别、严重等级和常见问题解答）。

测试框架被有意设计得极为精简：智能体在一个运行着确切存在漏洞版本的 Windows Server 2025 实时虚拟机上工作，配置为一旦触发内存错误便会立即崩溃。其代码以低权限用户身份运行，无网络访问权限。它仅有的工具是一个 shell 和一个文本编辑器。在 shell 中，它拥有标准的逆向工程命令行工具，外加若干便捷脚本，用于编译智能体的代码、将其复制到测试机器、执行，并报告内核是否崩溃以及崩溃方式。

为了对每次试验进行评分，我们重新编译每个提交的 PoC（概念验证代码），并在一个全新的虚拟机上以低权限用户身份运行它。通过检查是否触发蓝屏死机（BSOD）来确认崩溃，同时通过检查 PoC 运行后 whoami 是否从低权限提升为 SYSTEM 来确认权限提升。我们还插入了一个语言模型评分器作为最终判定层，用于对 PoC 进行分类筛选并重新运行，以排除任何奖励黑客行为或不现实的攻击方式。

结果

我们对每个漏洞运行了三次模型测试。我们发现，即使没有源代码，模型也能有效加速 N-day 漏洞利用。Sonnet 4.6 和 Opus 4.7 分别对 21 个漏洞中的 13 个成功开发了 PoC，能够触发漏洞导致蓝屏；而 Opus 4.8 达到了 15 个，Mythos Preview 达到了 18 个。Mythos Preview 的第一个 PoC 在 31 分钟内完成，全部 18 个在六小时内完成——API 积分总成本约为 2,200 美元。

图 4：我们对每个 CVE 进行了三次试验。当 Windows 客户机停止响应并向其串行控制台写入 BugCheck 横幅时，测试框架监督器会检测到崩溃。为了验证提交的 PoC，一个智能体评分器还会从头重新编译它，并以非特权用户身份在一个全新的虚拟机（原始智能体从未接触过）上运行它。评分器还被要求排除非目标崩溃和评分器篡改。Ghidra 和 Ghidriff 的输出是离线预计算的（所有文件总共约 2 小时），并在启动时作为文件暂存。

接下来，我们评估了模型是否能够在这组补丁上构建完整的权限提升链——也就是说，模型是否能够超越仅仅触发漏洞，而是将绕过 Windows 内核缓解措施并获取控制权所需的原语链接在一起。

与我们在 Firefox 上的结果一样，这正是 Mythos Preview 的亮点所在。它不仅生成了一个完整的链式漏洞利用，还生成了八个不同的漏洞利用，API 积分成本为 15,700 美元——平均每次权限提升约 2,000 美元。现在，N-day 漏洞利用的制约因素仅仅是几千美元和 API 访问权限，这极大地扩展了有能力进行 N-day 攻击的攻击者池。

Opus 4.8 在多次试验中接近生成单个漏洞利用（创建任意读取、任意写入原语，并找到 KASLR 泄露），但无法将这些原语链接在一起，在我们的测试框架中从低权限用户提升到 SYSTEM 权限。

图 5：纵轴表示从发布到某个 CVE 的三个试验中任意一个在其开发虚拟机上首次实现权限提升所需的小时数。权限提升由 harness 包装器检测，该包装器在利用前后分别运行 whoami，每次运行使用随机数，因此智能体无法预先打印预期输出。为了评分，智能体提交的源代码会被重新编译，并作为非特权用户在全新的虚拟机上运行，且使用单独的、受随机数保护的包装器。一个基于智能体的评分器会读取日志，重新运行利用代码并检查源代码，以排除作弊行为（例如替换 whoami、篡改评分器的父进程），确认漏洞利用链源自指定的 CVE 而非无关的 bug，并验证智能体的脚本未执行超出文档中管理员配置之外的操作。横轴按升序排列这些时间；只有 Mythos Preview 产生了任何结果。

Microsoft 的安全公告将我们评估的 21 个漏洞中的 14 个评为“不太可能被利用”或“不太可能被利用”。Mythos Preview 为这 14 个漏洞中的 13 个生成了 PoC——其中包括一个被评为“不太可能被利用”的漏洞的权限提升。Microsoft 的评级系统目前是针对人类研究人员校准的。但随着 Mythos 类模型广泛可用，这一情况可能需要改变。

以 Windows Autopatch 的时间线为参考（因为它目前可能是补丁管理中较快的一侧），通常需要 7 天才能将补丁分发给 90% 的已注册设备。而直到第 11 天，设备才会被强制重启。按照这个速度，Mythos Preview 会在任何 Windows 设备收到补丁更新之前，就完成所有 8 个完整链的漏洞利用。将这些漏洞利用转化为实际攻击仍需要进一步工作，但 Mythos Preview 现在已经将最耗时的步骤之一压缩到了数小时。

结论

如今的语言模型能够生成 N-day 漏洞利用并不令人意外。只要有足够的时间和良好的 harness，这很可能早已是可行的。

但像 Mythos Preview 这样的模型，改变的是研究成果的数量和产出速度。如今，一名独立的操作者仅需一个下午，就能把相当于一个月的补丁量转化为可实际利用的攻击代码——花费仅几千美元，且无需任何专业技能。

这意味着，当前软件开发人员惯用的典型补丁应对策略——按月度发布周期、分阶段部署数周、预发布版与稳定版之间存在延迟——已不再适用。这套策略的前提是，将补丁武器化需要专家花费数周时间（而且具备这种能力的专家数量有限）。但“N-day”这个词已经变得具有危险的误导性。“N-hour”才更接近我们如今所处的现实。

从历史上看，N-day 问题对修补缓慢或困难的系统造成的危害最大。工业控制系统、医疗设备和“物联网”设备通常受限于固定的维护窗口、厂商锁定的固件，或者有运行时间保障要求。随着将任何特定补丁武器化的成本趋近于零，这些设备和系统的风险将更加暴露。即便是那些按照既定的、“负责任的”补丁节奏运作的系统，现在也比以往更容易成为攻击目标。

厂商已经在着手缩短补丁差距。例如，Mozilla 已将 Firefox 的点发布周期从每月缩短为每周。更持久的解决方案应从消除漏洞源头入手，而非仅仅加快修补速度。这可以从将关键组件迁移到 Rust 这类内存安全语言开始，或者通过引入能够一次性消除整类攻击的缓解措施（例如控制流防护、硬件影子栈）来加固系统。虽然这无法完全消除所有攻击面，但可以显著减少风险。

在 Anthropic，我们正在积极探索大语言模型自身如何缓解 N-day 风险的多个方向，并希望在准备就绪后在本站分享更多信息。如果您有兴趣帮助我们推动这项工作，我们目前有多个职位开放招聘，包括研究科学家和工程师、威胁调查员、政策经理、攻击性安全研究员、安全工程师等。

智能体编程与专业技能的持续回报

为生物学领域的智能体铺路

让Claude成为化学家

订阅前沿红队简报

获取我们最新红队研究动态与发现

Anthropic：Research（发表成果 · 网页）

精选79导出 Markdown

Anthropic研究：大语言模型加速N-day漏洞利用自动化

2026-06-08 00:00·25天前

阅读原文· anthropic.com

精选理由

Anthropic 的这一研究将 N-day 漏洞利用时间从数周压缩到几小时，证明了前沿模型对安全防御时限的根本性颠覆，所有依赖补丁窗口的系统都得重新评估威胁模型。

AI 摘要

Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用，在21个Windows内核补丁（无源码）中产生8个完整利用链，可将低权限用户提升至SYSTEM控制权。公开模型（关闭安全措施）也能构建利用，但数量较少。研究中位补丁间隔为19天，表明当前补丁空窗期已被LLM显著缩短，防御方需加速补丁部署。

AI 翻译 · 中文