衡量大语言模型开发漏洞利用工具的能力
牛顿·程、基恩·卢卡斯、温妮·肖、尼古拉斯·卡利尼和米拉德·纳斯尔
引言
Claude Mythos Preview 在开发漏洞利用工具方面的能力,相较之前的尖端模型实现了阶跃式提升。这也是我们通过 Project Glasswing 而非全面公开发布来谨慎推出该模型的主要动因之一。Mythos Preview 能够发现复杂漏洞,但在我们的内部测试中,最令我们担忧的是,它不仅能将漏洞转化为漏洞利用原语,还能将这些原语组合成完整的端到端攻击链。
当我们发布 Mythos Preview 的测试结果时,我们通过让该模型搜索新型零日漏洞并为其构建利用工具来衡量其能力。这类定性评估有助于展示模型的能力——但理想情况下,我们希望能有高质量的定量基准来精确衡量这些能力。我们在发布 Mythos Preview 时面临的问题是,在初步测试中,现有的公开漏洞利用基准工具的难度都不足以体现 Mythos Preview 的能力。
不过,在过去一个月里,我们看到了两个更具挑战性的新学术基准的诞生:ExploitBench 和 ExploitGym。我们与这些基准的研发人员合作,测量了 Mythos Preview 的性能,同时还让 Mythos Preview 运行了 SCONE-bench 的更新版本——这是我们与 MATS 和 Anthropic 研究员计划合作开发的、用于衡量智能合约漏洞利用能力的基准。在所有三个基准测试中,我们发现 Mythos Preview 始终优于所有其他被评估的模型。我们认为,这进一步证明,随着 Mythos 级别的能力变得更广泛可用,开发漏洞利用工具所需的知识和专业技能将大幅下降。
ExploitBench:V8 漏洞
ExploitBench 是一个用于研究大语言模型漏洞利用开发能力的基准测试。它由卡内基梅隆大学的 Seunghyun Lee 和 David Brumley 教授与 Bugcrowd 共同构建。这个基准测试的有趣之处在于,它专注于衡量语言模型编写完整端到端漏洞利用程序的能力。以往的基准测试通常侧重于衡量语言模型编写“概念验证”的能力,用于证明漏洞的存在。但概念验证仅表明某个 bug 可以被复现或可达,并不代表攻击者能利用它实际造成危害。在 ExploitBench 中,语言模型必须基于漏洞构建利用原语,以实现新的能力,例如赋予攻击者任意代码执行(ACE)能力。
ExploitBench 将漏洞利用开发过程分解为 16 种不同的能力。每一种能力都通过程序化方式验证,从而可以对构建有效利用所需的不同中间能力进行细粒度分析。这 16 种能力被划分为五个能力层级,形成一个能力阶梯:
- T5 覆盖(抵达漏洞代码路径);
- T4 复现(构建概念验证以触发 bug);
- T3 目标原语(创建局限于 V8 沙箱内的原语);
- T2 通用原语(突破沙箱,实现跨进程的读/写或信息泄露);
- T1 完全控制(劫持控制流或实现任意代码执行)。
利用这一框架,作者构建了一个 V8 基准测试,该测试使用了来自 V8 Exploit Tracker 的 41 个(现已修补的)V8 JavaScript 和 WebAssembly 引擎漏洞。V8 引擎是一种广泛使用的基础设施,为基于 Chromium 的应用(例如 Chrome、Edge、Android WebView)、Node.js 环境(服务器后端)以及 Electron 应用(例如 VS Code、Slack、Discord)提供支持。该框架的一个关键要素是针对安全防御进行测试:V8 沙箱将网页 JavaScript 对象所在的内存隔离起来,这样 V8 的漏洞就不会成为深入浏览器内部的突破口。最高评分等级意味着能够在整个 V8 进程中执行任意代码(在浏览器中,这相当于对整个标签页取得了控制权)。
给定一个存在漏洞的 V8 引擎构建版本以及修复某个特定漏洞的补丁后,大语言模型被指示针对该漏洞构建一个利用程序。随后,这些利用程序会自动针对全部 16 项能力进行评分,无需人工或大语言模型裁判。较低等级通过针对修补后的构建版本进行差异执行来检查;较高等级则使用 V8 内置的挑战-响应函数进行检查,这些函数会在多个随机化的堆布局上重放,因此硬编码泄漏的地址无法通过。此外,对转录文本进行的独立静态扫描会作为备用手段标记其他形式的作弊行为。
所有模型均在相同的 ExploitBench 测试框架上运行,拥有 300 轮预算,该框架本身有两个变体:基线版(Baseline)和引导版(Nudged)。在引导版中,测试框架会自适应地注入额外的提示,以在接近预算限制时提醒模型收尾,或者在模型过早停止时鼓励其用尽预算轮次。每个变体均运行三次试验。Anthropic 运行了所有 Claude 模型,然后向基准测试作者提供了所有结果和转录文本,由后者验证了结果。


与我们之前在Mozilla Firefox上的发现一致,所有语言模型都能达到或触发给定的漏洞,但只有自Claude Opus 4.6以来的模型在V8沙箱内开发原语方面取得了进展。逃离V8沙箱,即从T3到T2,是下一个能力悬崖;Mythos Preview是唯一经过测试且能可靠做到这一点的模型,它在超过半数测试环境中都能成功。在基线变体中,它还能够在近半数的环境中实现控制流劫持(T1)。结合基线变体和引导变体,Mythos Preview在41个CVE中的21个上实现了ACE,而其他模型无论在哪一种变体中都未实现哪怕1个ACE。排行榜上唯一另一个达到ACE的模型在41个CVE中只成功了2个,且使用了专有脚手架。
此外,作者对Mythos Preview的几次漏洞利用尝试进行了深入分析。在一个案例中,Mythos Preview能够为漏洞CVE-2023-6702创建一个近乎确定性的漏洞利用,而公开已知的漏洞利用则具有概率性且不可控。由于漏洞利用的部署可能只限于一次尝试,稳定性对于实际买卖的漏洞利用往往至关重要。Mythos Preview实现这一点的方式同样令人印象深刻。ExploitBench的作者之一Seunghyun Lee写道:“我曾私下与1-day v8CTF漏洞利用的原作者讨论过正是这种漏洞利用计划的可能性,但由于该方法过于复杂,我们很快便将其否定。Mythos在没有关于该特定漏洞利用技术的任何公开信息的情况下,干净且完美地执行了这一计划。”
在此处阅读更多定性分析内容,详情请访问基准测试网站 exploitbench.ai 或预印本。
ExploitGym
ExploitGym 是第二个基准测试,旨在评估大语言模型在广泛目标集上的利用能力。它由加州大学伯克利分校、马克斯·普朗克安全与隐私研究所、加州大学圣塔芭芭拉分校和亚利桑那州立大学(Anthropic、OpenAI 和谷歌的安全研究人员参与贡献)合作开发,是 CyberGym 漏洞复现基准测试的后续工作。
ExploitGym 的作者将他们的评估框架应用于 OSS-Fuzz、V8 引擎和 Linux 内核中众多项目里现已修复的 898 个漏洞。这三个目标类别共同覆盖了全球最常用软件的很大一部分。
对于给定的漏洞,大语言模型会获得构建信息(漏洞源代码和构建脚本)、漏洞信息(漏洞证明、漏洞描述)、运行时信息(编译后的二进制文件、启动脚本)以及一个运行该漏洞入口点的远程目标。然后,大语言模型的任务是开发出一个可工作的利用程序,能对目标实现未授权的代码执行,以目标安全模型本应禁止的权限级别运行代码。接着它必须利用这一提升后的权限来检索一个动态生成的标志(flag)。只有当提交了正确的标志,并且模型裁判认定该尝试利用了预期漏洞(而非利用了另一个可能更容易利用的漏洞)时,该尝试才被标记为成功。评估框架支持可切换的安全缓解措施,例如 V8 堆沙箱和 Linux 内核地址空间布局随机化(KASLR)。
评估的基线框架使用两小时的挂钟时间限制,关闭安全缓解措施,模型使用其开发者推荐的运行框架运行,例如 Claude 模型使用 Claude Code 框架运行。所有模型使用相同的提示词运行。Anthropic 运行了 Opus 4.6 和 Mythos Preview 的试验。


在两小时的时间窗口内,Mythos Preview 在157个任务上成功利用预期漏洞实现了未授权代码执行;如果加上那些未使用预期漏洞但仍能实现代码执行路径的尝试,成功捕获旗帜的次数则扩大到226次。之前几代 Claude 模型的成功率明显更低;例如,Opus 4.6 利用预期漏洞仅成功15次,若加上通过其他漏洞成功的情况,则扩大到36次。从三类目标中的成功分布来看,Mythos Preview 在所有类别上均有提升,并且是仅有的两个经常能开发出内核漏洞的模型之一。
更多详情请参阅作者的博客或预印本。
SCONE:智能合约漏洞利用
去年,我们与 MATS 及 Anthropic 研究员项目合作,开发了智能合约漏洞利用基准测试(SCONE-bench),用于研究大语言模型发现并利用智能合约漏洞的能力。对于每个智能合约,大语言模型被要求识别一个漏洞,并创建一个漏洞利用脚本,在本地模拟中窃取由该合约管理的资金。性能通过成功利用的总(模拟)收益来衡量。
我们对基准测试的更新版本进行了测试,该版本使用了所有模型最新知识截止日期(2026年1月1日)之后报告的12个漏洞,问题来源为DefiHackLabs数据集。对于大语言模型成功利用的每个智能合约,我们通过将模型获取的收益(以原生代币计价)按实际漏洞发生当日的历史汇率(来自CoinGecko API)转换为美元,来计算该漏洞利用的美元价值。然后我们汇总所有漏洞利用的总价值,并将其绘制在下方采用对数尺度的图表中。

我们发现,Mythos Preview在此基准测试中可以成功利用价值3500万美元的智能合约,这比我们测试的次优模型高出1500万美元,即大约75%。最新的前沿模型不仅能够更稳定地利用漏洞(对应更高的攻击成功率),而且能够更高效地利用特定漏洞窃取更多资金。Mythos Preview与其他模型之间的收入差距,主要来自于它是唯一成功利用了测试中每一个漏洞的模型。Opus 4.7是唯一能够利用 truebit 漏洞的其他模型;在8次尝试的设置下,没有其他模型能够利用 makina 漏洞。我们在最初的博文中提到,以总收入与发布时间的对应关系衡量,Opus 4.5之前模型的表现遵循对数线性轨迹,平均翻倍时间为1.1个月。我们自Opus 4.5之后的模型延续了这一趋势,但翻倍时间缩短至仅0.7个月。我们在那篇博文中曾指出"我们预计翻倍趋势最终会趋于平缓"——但显然我们还未达到这一平台期。
与此同时,我们也在本文中开源了SCONE-bench的测试框架和数据集,可在此处获取。
结论
今年2月最强的大语言模型在绝大多数防御措施禁用的情况下,几乎无法在模拟场景中完成漏洞利用开发,而Mythos Preview已能为全球最广泛使用的软件构建完整的端到端漏洞利用方案。我们认为,Mythos级别的模型将在未来6-12个月内广泛可用。届时,此类漏洞利用开发所需的专业专长将大幅降低,并日益商品化。
随着模型能力持续提升,误判其能力的代价也随之增长。应对这一挑战需要构建精确且全面的模型能力画像,这进而要求开发高质量、公开可用的评测基准——即由具备深厚领域专业知识的人员设计的真实且困难的任务。该领域需要更多类似ExploitBench和ExploitGym的工作,覆盖更多漏洞类别、更多目标以及网络攻击链的更多环节。作为我们研究和缓解日益强大的模型所带来风险承诺的一部分,我们正在支持开发网络安全领域的高质量、严格模型评估。欢迎通过我们的外部研究员访问计划联系了解更多详情。
更好的评测对于负责任的部署是必要的,但并不充分。除了通过Project Glasswing支持网络防御者外,我们还推出了网络安全验证计划,使我们能够更积极地阻止潜在的恶意网络威胁,同时不会切断那些使用Claude保护自身软件和基础设施的防御者。
如果您有兴趣帮助我们开展工作,我们目前有研究科学家和工程师、威胁调查员、政策经理、攻击性安全研究员、安全工程师等多个职位空缺。
订阅前沿红队(Frontier Red Team)通讯
获取我们最新红队研究及发现的更新动态。