6月12日(星期五),美国政府对我们最新模型 Claude Fable 5 和 Claude Mythos 5 实施了出口管制。这要求我们限制外籍人士的访问权限,无论其身处美国境内还是境外。由于该命令立即生效,且我们无法实时可靠地核实国籍,因此暂停了所有用户对这两款模型的访问。
截至今天(6月30日),针对 Fable 5 和 Mythos 5 的出口管制已经解除。
Fable 5 将于明天(7月1日,星期三)起面向全球用户在 Claude 平台、Claude.ai、Claude Code 和 Claude Cowork 上提供。对于 Pro、Max、Team 及部分 Enterprise 套餐¹,截至7月7日,Fable 5 将包含在每周使用限额的 50% 以内,之后将通过使用积分提供。我们将尽快在 AWS、Google Cloud 和 Microsoft Foundry 上重新启用访问。
我们还根据美国政府6月26日的批准,恢复了一组美国组织对 Mythos 5 的访问权限。我们继续与政府协调,以在 Glasswing 项目中向更广泛的国内外合作伙伴开放访问。
在本篇文章的剩余部分,我们从四个方面提供更多细节和更新:
- 事件时间线,包括我们对安全防护措施所做的更新。我们讨论了导致出口管制指令的事件,以及我们如何通过新的安全防护措施来应对。
- 我们的一般安全防护方法。我们提供更多背景信息,说明我们如何使用安全分类器来检测模型潜在的危害性网络安全用途。
- 一个共享的行业框架。尽管我们已经达成了建设性的解决方案,但这些事件清楚地表明,行业需要一种统一的方法来评估和修复 AI 模型的潜在“越狱”行为(即绕过模型安全防护的技术)。² 一个用于判定特定越狱行为严重程度的共享标准,将有助于 AI 开发者在出现新发现时对其进行分类,以更高的安全性发布高性能模型,并与政府和行业合作伙伴一致地沟通风险等级。我们已与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴共同启动了该框架的制定工作,下文将对其进行概述。
- 更深层次的政府协作。我们还正在加强与美国政府在新型预发布测试、信息共享和研究合作方面的协作水平。我们将在最后一部分详细介绍这一更深层次的协作。
时间线与安全防护更新
我们于 6 月 9 日(星期二)发布了 Fable 5 和 Mythos 5。两者共享相同的底层模型,但 Fable 5 配备了强大的安全防护措施,使其在通用场景下更安全。而安全防护较少的 Mythos 5 仅向少数受信任的 Project Glasswing 合作伙伴开放,用于防御性网络安全领域。
6 月 12 日发布的出口管制指令源于政府获悉的一份报告,其中亚马逊研究人员发现了一种绕过 Fable 5 安全防护的方法:通过提示词诱导模型识别出多个软件漏洞。在一个案例中,模型生成了展示如何利用相关漏洞的代码。在过去两周里,我们与政府及包括亚马逊在内的其他合作伙伴密切合作,审阅了该报告及相关证据。
我们的测试证实,许多能力较弱的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——也能识别出报告中 Fable 5 所发现的相同漏洞。而在展示如何利用单个漏洞方面,我们测试的所有模型都能给出与 Fable 5 相同的演示(包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7)。
重要的是,报告中提到的技术并未暴露任何独有的 Mythos 级网络能力。这种行为属于 Fable 5 防护措施的边缘案例——正如下文所述,有些任务不太可能带来危险,但出于高度谨慎,防护措施仍然将其阻止。报告中的技术允许访问其中一种行为,但这只涉及常规的防御性网络安全工作。
尽管如此,我们还是迅速行动,应对报告中提到的绕过方法。在与政府密切合作下,我们训练了一个改进的安全分类器,用于针对并阻止报告中描述的行为。当向 Fable 5 提出的请求被阻止时,用户将收到通知,该请求将转而发送给 Opus 4.8。
新分类器意味着,Amazon 报告中描述的特定技术超过 99% 的情况下都会被阻止。在极少数情况下,模型可能提供的信息不够详细,不足以帮助网络攻击者。正如下文所述,模型的防护措施并不预期阻止所有低风险的常规网络防御能力——只阻止那些可能有害的能力。美国商务部人工智能标准与创新中心(CAISI)的研究人员对我们的旧版和新版防护措施均进行了测试,并一致认为这些防护措施极其强大。
新分类器也带来了代价:在常规编码和调试任务中,良性请求被标记的频率更高。与所有防护措施一样,我们将持续优化,以更好地区分真正的滥用行为与合法请求,并减少误报。
我们的网络安全防护措施方法
Claude Mythos 5 可以被用来比任何其他模型——甚至几乎所有最熟练的人类安全专家——都更有效地发现和利用软件漏洞。这些卓越的网络安全能力使其对那些希望在网络攻击中滥用它的恶意行为者具有独特的吸引力。
然而,Claude Fable 5 并不具备这样独特的攻击能力。这是因为我们在发布时为其配备了有史以来最强大的安全防护措施。在发布前一个月,我们从 Anthropic 内部多个团队抽调人员,将从事该问题研究的研究员和工程师人数增加了一倍。
Fable 5 在发布时配备了多种安全机制,其中每一种单独来看都无法提供完美防御,但组合起来却能让模型极难被滥用(这种策略称为“纵深防御”)。部分防御手段包括训练模型拒绝响应危险请求;另一些则涉及对滥用模式进行事后分析。
一项尤为重要的安全机制涉及分类器——这类更小型的自动化 AI 系统能够在交互过程中检测模型是否被要求执行潜在有害的网络安全任务(或生成潜在有害的输出)。当此类情况发生时,分类器会阻止模型对请求进行响应。这些分类器的最终目标是防止模型参与任何具有独特危险性的行为。
与所有安全机制一样,分类器也可能犯错。它们有时无法察觉潜在的有害内容,在某些情况下还可能被人为“越狱”:用户可以通过非正常方式引导模型,欺骗分类器,诱使模型生成系统本应拦截的有害输出。
因此,我们有意将安全分类器设置为对一组已知很可能无害的请求也会触发拦截。这种“安全边际”方法意味着,一个请求必须看起来非常明确地安全,才能避免触发分类器(见下图中行 A)。用户所感受到的安全边际,就体现为模型拒绝回答某些合理且无害的请求。
对于 Fable 5,我们将这一安全边际设置得比以往任何一次发布都要大得多(行 B),这意味着更多无害的请求会被拦截。我们明白这类误报会让用户感到困扰,但为了让模型的其它能力得以广泛应用,我们做出了这一权衡取舍。

安全裕度还有助于缓解越狱攻击。许多越狱攻击是狭窄的:它们只会解除对某个非常具体的模型行为的拦截,而不会更多。在某些情况下,假设中的用户可以通过较小方式越狱模型,并侵入安全裕度(有时会侵入模糊的有害行为范围),但无法触及我们旨在拦截的核心有害行为(下方行C)。我们认为,目前报告的Fable 5越狱攻击都属于这种轻微类别。
更严重的越狱攻击会解除对更多有害行为的拦截。狭窄的有害越狱(行D)可以引发某些具体的有害行为。这些越狱攻击通常属于低到中等严重程度,因为狭窄性限制了攻击者。最令人担忧的类别是通用型越狱(行E),它会解除对一大类有害行为的拦截。

正如我们在推出 Fable 5 时所指出,要让任何 AI 模型完全鲁棒(即不受越狱攻击影响)几乎是不可能的。³ 我们预计,针对我们模型的某些越狱攻击会被发现,其严重程度各不相同:会有许多轻微越狱、一些窄范围的恶意越狱,尽管截至撰写本文时尚未发现针对 Fable 5 的通用越狱,但专业安全研究人员仍在持续对其进行红队测试。我们力求确保,我们及我们的安全合作伙伴能够率先发现重大越狱攻击,并在恶意行为者利用它们造成危害之前将其修复。
上述谨慎方针意味着,绝大多数越狱攻击将无法成功解锁危险行为。我们的分类器使得成功越狱的代价极其高昂且需要大量人力,即使越狱成功,我们的额外防御层也能提供进一步的缓解措施。随着我们对新型越狱技术了解加深,我们将持续更新分类器。
关于越狱攻击的行业共识框架
目前,AI 行业对于如何以客观术语描述 AI 越狱攻击的严重程度尚无共识。每当发现新的越狱技术时,这就会带来巨大的不确定性:开发者没有商定的标准来判断哪些发现最需要优先处理,政府也没有商定的标准来决定何时采取行动。⁴
在未来几个月,随着更多具备强大网络安全(及其他)能力的模型被训练、评估和发布,这个问题将变得更加严峻。制定评估 AI 越狱攻击的通用标准将有助于我们及其他公司安全地发布新模型,同时也能让用户充分利用其高级能力。
因此,我们正与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴共同起草一份共识框架,用于评估 AI 越狱攻击的严重程度以及 AI 开发人员应如何应对。我们邀请其他行业合作伙伴和模型提供商加入这一努力。
我们目前的提案是根据以下四个不同标准对给定越狱攻击进行评分。前两项描述越狱攻击为攻击者提供了什么;后两项描述越狱攻击能够多快成为现实世界的问题:
- 能力增益。越狱攻击在多大程度上超越了现有工具,使使用者获得更强的能力?如果现有的广泛可用工具(包括其他较弱的人工智能模型)能够达到与被越狱模型相同的能力水平,此处的评分就会较低;如果越狱攻击解锁了模型的能力,而这些能力可以显著加速甚至领域专家的工作,那么评分就会较高。
- 能力增益的广度。同一种越狱技术能够作用于多少种不同的攻击性任务?如果越狱攻击仅能让模型针对有限的目标,评分就会较低;如果同一种越狱技术可以作用于多种不同的目标或技术手段,评分就会较高。
- 武器化难易程度。将越狱攻击转化为实际攻击需要多少人力投入?如果越狱攻击需要大量技巧性的提示词编写和多次重试,评分就会较低;如果越狱攻击只需单次提示词或第一、第二次尝试即可成功,评分就会较高。
- 可发现性。他人获得该技术的难易程度如何?如果需要专业知识才能获得,评分就会较低;如果该技术已广泛流传且可在网上获取,评分就会较高。
我们提议使用这套严重性评估框架来校准我们对新发现的越狱攻击的响应措施。对于最严重的越狱攻击类别(例如,某种越狱攻击在其他特征中还被用来对关键电网或银行系统造成毁灭性影响),我们将在确认严重性后立即开始部署初步缓解措施。我们还在组建一个团队,对关键的越狱攻击提交渠道进行全天候监控。
任何对越狱攻击进行评分的方法都不可能完美。然而,能够通过一个共同的框架来传达某个发现的大致严重程度,仍然是有价值的。这是一项正在进行中的工作;随着我们从更多合作伙伴那里收到反馈,我们预计该框架将随着时间的推移而演变。
我们预计很快会分享更多关于拟议框架的细节。与此同时,我们还启动了一个新的 HackerOne 项目,安全研究人员可以提交他们在 Fable 5(一旦可用)中发现的潜在网络安全越狱漏洞,供我们审查。
与美国政府在前沿人工智能安全方面建立合作
过去十周,Anthropic 与美国政府密切合作,共同制定了 6 月 2 日《促进先进人工智能创新与安全》行政令所体现的方向。我们的合作涉及国家网络总监办公室、白宫科技政策办公室、财政部、商务部(包括 AI 安全研究所 CAISI)以及相关的国家安全机构。
我们致力于继续推进这项工作,将此前近两年与美国政府合作伙伴在部署前测试与评估方面的既有合作进一步深化。以下承诺既反映了既有工作,也体现了我们在上述框架最终确定后扩大政府合作规模的新提案:
- 发布前的政府访问与评估。对于在国家安全相关领域显著推进能力边界的模型,我们将向指定的政府合作伙伴提供更早的访问权限,包括模型及其配套安全措施。这些合作伙伴可以在模型广泛发布之前独立进行能力评估,并测试我们的防护栏。在测试期间,我们将指派 Anthropic 技术员工与政府评估人员协同工作。
- 安全防护措施的快速信息共享。当发现重大越狱漏洞或滥用模式时,我们将迅速调查、分类并通知相应的政府对口部门。我们将分享为此构建的新安全防护措施,供其独立测试。我们还将提前向政府合作伙伴提供我们的威胁情报报告,并参与根据 6 月 2 日行政令第 2(d) 条设立的跨机构网络安全漏洞信息交换中心。
- 为联合研究提供专用资源。我们正大幅扩大与政府合作伙伴在AI安全领域的联合工作。我们将设立专门的Anthropic团队,致力于政府共同优先事项,提供大量计算资源以支持政府测试和研究,并分享我们的安全和红队专业知识,以帮助推动AI评估领域的技术前沿。
- 建立共同的行业基准。我们将与政府和行业同行合作,为前沿模型开发者制定一套自愿性安全与评估共同标准。我们将提供评估工具、测试工具和最佳实践,供政府在整个领域应用。
我们希望这种合作,以及我们提出的共识行业框架,能够成为整个行业系统性规则的基础——甚至为AI风险与收益的有效全球协调提供初步模板。
这些规则应通过强有力的监管予以规范化,并平等适用于所有前沿模型开发者。政府参与AI发布需要一个持久、透明的流程,使网络防御者及其他相关人员能够对强大模型的访问权限获得所需的确定性。
我们期待以上述方式深化与政府的合作。同时感谢用户在此次中断期间的耐心,以及与我们并肩作战使Fable 5和Mythos 5重新可用的研究人员和行业伙伴。