6月12日星期五,美国政府对我们的最新模型 Claude Fable 5 及 Claude Mythos 5 实施了出口管制。这要求我们限制外国公民(无论是身处美国境内还是境外)的访问权限。由于该命令立即生效,且我们无法实时可靠地核实国籍,因此我们暂停了所有用户对这两个模型的访问。
截至今天,即6月30日,针对 Fable 5 及 Mythos 5 的出口管制已经解除。
自明天,即7月1日星期三起,Fable 5 将面向全球用户在 Claude Platform、Claude.ai、Claude Code 及 Claude Cowork 上提供。对于 Pro、Max、Team 及部分 Enterprise 套餐1,Fable 5 在7月7日前将被纳入每周使用上限的50%以内,此后将通过使用积分提供。我们将尽快在 AWS、Google Cloud 及 Microsoft Foundry 上重新启用访问权限。
根据美国政府于6月26日的批准,我们还恢复了一组美国机构对 Mythos 5 的访问权限。我们正继续与政府协调,以扩大 Glasswing 项目中更广泛的国内及国际合作伙伴的访问权限。
在本文的其余部分,我们将在四个方面提供更多细节和更新:
- 事件时间线,包括我们对安全防护措施所做的更新。我们讨论导致出口管制指令的事件,以及我们如何通过新的安全防护措施来应对。
- 我们的安全防护总体方法。我们提供更多背景信息,说明我们如何使用安全分类器来检测模型在网络安全方面可能存在的危险用途。
- 一个共享的行业框架。尽管我们已经达成了建设性的解决方案,但这些事件表明,行业需要一种一致的方法来评估和修复 AI 模型潜在的“越狱”漏洞(即绕过模型安全防护的技术)。² 一个用于判断特定越狱严重程度的共享标准,将帮助 AI 开发者在发现新成果时进行优先级排序,更安全地发布高能力模型,并向政府和行业伙伴一致地传达风险等级。我们已与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴共同着手制定这样一个框架,并在下文中对其进行概述。
- 更深入的政府协作。我们也在加强与美国政府在全新的预发布测试、信息共享和研究协作方面的合作力度。我们在最后一节中详细介绍了这种更深层次的合作。
时间线与安全防护更新
我们于 6 月 9 日(星期二)发布了 Fable 5 和 Mythos 5。这两个模型共享相同的基础模型,但 Fable 5 在发布时配备了强大的安全防护措施,使其更适合通用用途。而安全防护较少的 Mythos 5 仅向少数受信任的 Project Glasswing 合作伙伴发布,用于防御性网络安全领域。
6 月 12 日的出口管制指令是在政府获悉一份报告后发布的,该报告显示亚马逊研究人员发现了一种绕过 Fable 5 安全防护的方法:通过特定提示词引导模型识别出多个软件漏洞。在一个案例中,模型生成了演示如何利用相关漏洞的代码。过去两周,我们与政府及其他合作伙伴(包括亚马逊)密切合作,审查了这份报告及证据。
我们的测试证实,许多能力较弱的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——也能识别出报告中 Fable 5 发现的相同漏洞。在演示如何利用单一漏洞方面,我们测试的每个模型都能生成与 Fable 5 相同的演示(包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7)。
重要的是,所报告的技术并未暴露任何独一无二的 Mythos 级别网络能力。该行为属于 Fable 5 安全措施的一个边界案例——正如我们将在下文解释的那样,有些任务虽然不太可能带来危险,但出于谨慎考虑,安全措施仍会加以拦截。所报告的技术允许触及这样一种行为,但它仅涉及常规的防御性网络安全工作。
即便如此,我们迅速采取了行动来解决所报告的安全绕过问题。在与政府密切合作下,我们训练了一个改进的安全分类器,用于定位并拦截报告中描述的行为。如果对 Fable 5 的请求被拦截,用户将收到通知,该请求将被转交至 Opus 4.8 处理。
新的分类器意味着,Amazon 报告中描述的具体技术在超过 99% 的情况下都会被拦截。在极少数情况下,模型可能会提供一些不够详细的、无法帮助网络攻击者的信息。正如我们下文所述,模型的安全措施并非旨在拦截所有低风险的常规网络防御能力——只拦截那些可能有害的能力。美国商务部人工智能标准与创新中心(CAISI)的研究人员测试了我们之前和新的安全措施,一致认为它们极其强大。
新的分类器也带来了一个代价:在常规的编码和调试任务中,误报良性请求的情况会更多。与我们的所有安全措施一样,我们将持续优化这一分类器,以更好地区分真正的滥用行为与合法请求,减少误报。
我们的网络安全安全措施策略
Claude Mythos 5 在发现和利用软件漏洞方面比任何其他模型都更有效——甚至超过了除最顶尖的人类安全专家之外的所有人。如此强大的网络能力使其对恶意行为者具有独特的吸引力,他们希望在网络攻击中滥用这一能力。
然而,Claude Fable 5 并未提供此类独特的进攻性能力。这是因为我们在发布该模型时,为其配备了迄今为止最强大的安全防护措施。在发布前一个月,我们从 Anthropic 内部各个团队抽调员工,将致力于解决该问题的研究人员和工程师数量增加了一倍。
Fable 5 在发布时配备了多种安全机制,其中每一种单独来看都无法提供完美的防御,但当它们组合在一起时,就能使模型非常难以被滥用(这种方法被称为“纵深防御”)。一些防御措施涉及训练模型拒绝响应危险请求;另一些则涉及追溯分析滥用模式。
其中一项特别重要的安全机制涉及分类器——一种小型的自动化 AI 系统,它能在交互过程中检测模型是否被要求执行潜在有害的网络安全任务(或产生潜在有害的输出)。当这种情况发生时,分类器会阻止模型响应请求。这些分类器的最终目标是防止模型参与具有独特危险性的行为。
与所有安全机制一样,分类器也会犯错。它们有时无法注意到潜在危险的内容,并且在某些情况下,它们可能被蓄意“越狱”:用户可以通过不同寻常的方式提示模型,从而欺骗分类器,让模型产生系统本应阻止的有害输出。
因此,我们特意设置了安全分类器,使其在一组我们已知可能良性的请求上触发。这种“安全边际”方法意味着,一个请求必须看起来非常明确地安全,才能避免触发分类器(见下图中的 A 行)。用户会遇到模型拒绝响应一些合理、无害的请求的情况,这便是安全边际的体现。
对于 Fable 5,我们将这个安全边际设置得比以往任何一次发布都要大得多(B 行),这意味着会有更多良性请求被拦截。我们理解这类误报会让用户感到沮丧,但为了让模型的其他功能得以广泛使用,我们做出了这一权衡。

安全裕度还有助于缓解越狱攻击。许多越狱攻击是狭隘的:它们仅解封模型非常特定的某种行为,除此之外别无其他。在某些情况下,假设中的用户可以通过轻微方式越狱模型,侵入安全裕度(有时是进入模糊有害行为区域),但无法触及我们旨在拦截的核心有害行为(见下方 C 行)。我们的看法是,目前所报告的 Fable 5 越狱攻击均属于此类轻微范畴。
更严重的越狱攻击会解封更多有害行为。狭隘的有害越狱(D 行)能够引发某些特定的有害行为。这类越狱通常严重程度较低到中等,因为其狭隘性限制了攻击者。最令人担忧的类别是通用越狱(E 行),它能够解封大量有害行为。

正如我们在发布 Fable 5 时所指出的那样,要让任何 AI 模型完全抵御(即免疫)越狱攻击几乎是不可能的³。我们预料到自己的模型会被发现存在某些越狱方法,并且这些越狱的严重程度会有所不同:会出现许多轻微越狱、一些危害范围较窄的恶意越狱,尽管在撰写本文时尚未发现针对 Fable 5 的通用越狱方法,但安全研究专家仍在持续对其进行红队测试。我们力求确保自己及安全合作伙伴能够最先发现重大越狱漏洞,并在恶意行为者利用它们造成危害之前将其修复。
上述谨慎方针意味着,绝大多数越狱攻击将无法成功解除危险行为的限制。我们的分类器使成功的越狱变得成本极高且需要大量精力才能实现,即使越狱成功,我们额外的防御层也能提供进一步缓解。随着我们对新型越狱技术了解得越来越多,我们将持续更新分类器。
行业共识的越狱评估框架
目前 AI 行业对于如何用客观术语描述 AI 越狱的严重程度尚未达成共识。每当发现新的越狱技术时,这就会带来大量不确定性:开发人员缺乏一致认可的标准来确定哪些发现最需要紧急关注,政府也缺乏一致认可的标准来决定何时采取行动⁴。
在未来几个月里,随着更多具备强大网络安全(及其他)能力的模型被训练、评估和发布,这一问题将变得更加尖锐。一套通用的 AI 越狱评估标准将有助于我们和其他公司安全地发布新模型,同时也能让用户充分利用其先进能力。
因此,我们正与亚马逊、微软、谷歌以及其他 Glasswing 合作伙伴共同起草一份共识框架,用于评估 AI 越狱的严重程度以及 AI 开发者应如何应对。我们欢迎其他行业合作伙伴和模型提供商加入这一努力。
我们当前的方案是,根据以下四个不同标准对给定的越狱行为进行评分。前两项描述越狱为攻击者提供了什么;后两项描述该越狱可能以多快速度演变为现实问题:
- 能力增益。越狱使用户的能力在多大程度上超越了现有工具?如果现有广泛可用的工具(包括其他较弱的AI模型)能够达到与越狱模型相同的能力,那么此项得分将较低;如果越狱解锁了模型能力,能够显著加速甚至领域专家的进展,那么得分将较高。
- 能力增益的广度。同一种越狱技术对多少种不同的攻击任务有效?如果越狱仅允许模型针对狭窄目标,得分将较低;如果同一种越狱技术对多个不同目标或技术都有效,得分将较高。
- 武器化难度。将越狱转化为实际攻击需要多少人力投入?如果越狱涉及大量技巧性提示词编写和多次重试,得分将较低;如果越狱只需单次提示词或第一次、第二次尝试即可成功,得分将较高。
- 可发现性。他人获取该技术的难易程度如何?如果需要专业知识才能获得,得分将较低;如果该技术已广泛为人所知且在网上可获取,得分将较高。
我们建议使用这一严重性框架来校准我们对新发现越狱行为的响应。对于最严重的越狱类别(例如,某种越狱具有以下特征:正被用于对关键电网或银行系统造成毁灭性影响),我们将在确认严重性后立即开始部署初步缓解措施。我们还正在组建一个团队,对关键越狱提交渠道进行7×24小时监控。
任何越狱评分方法都不是完美的。尽管如此,通过一个通用框架来传达某一发现的近似严重性仍然有其价值。这是一项正在进行的工作;随着我们从更多合作伙伴那里获得反馈,我们预计这一框架将随着时间的推移不断演进。
我们预计很快将分享关于拟议框架的更多细节。与此同时,我们还启动了一个新的 HackerOne 计划,安全研究人员可以提交他们在 Fable 5(一旦可用时)中发现的潜在网络越狱漏洞,供我们审查。
与美国政府在尖端 AI 安全领域开展合作
过去十周,Anthropic 与美国政府紧密合作,共同制定了 6 月 2 日《促进先进人工智能创新与安全行政令》中所体现的方针。我们的合作涉及国家网络总监办公室、白宫科技政策办公室、财政部、商务部(包括 CAISI),以及相关国家安全机构。
我们致力于在已与美国政府合作伙伴开展近两年的部署前测试与评估合作基础上,继续推进相关工作。以下承诺既体现了已有的合作成果,也包含了随着上述框架最终确定而扩大政府合作规模的新提议:
- 发布前政府访问与评估。对于在国家安全相关领域显著推动能力边界的模型,我们将向指定的政府合作伙伴提供更早的模型及配套防护措施访问权限。这些合作伙伴可以在广泛发布前,独立运行能力评估并测试我们的安全护栏。在此测试期间,我们将安排 Anthropic 技术员工与政府评估人员并肩工作。
- 防护措施快速信息共享。当发现重大越狱行为或滥用模式时,我们将迅速调查、分类,并通知相应的政府对口部门。我们将分享为此构建的新防护措施,以便其接受独立测试。我们还将提前向政府合作伙伴提供威胁情报报告,并参与根据 6 月 2 日行政令第 2(d) 条设立的跨机构网络安全漏洞信息交换中心。
- 为联合研究提供专用资源。我们正大幅扩大与政府合作伙伴在人工智能安全方面的联合工作。我们将组建专门的人类学团队,致力于政府优先事项,提供大量算力分配以支持政府测试与研究,并分享我们的安全与红队专业知识,助力推动人工智能评估技术的进步。
- 统一的行业标准。我们将与政府及行业同行合作,共同为前沿模型提供商制定一套自愿性的安全与评估标准。我们将贡献评估方法、工具及最佳实践,供政府在整个领域推广应用。
我们希望此次合作,以及我们提出的行业共识框架,能够为整个行业建立系统性规则奠定基础,甚至为有效协调全球范围内人工智能的风险与收益提供初步模板。
这些规则应通过强有力的监管加以固化,并平等适用于所有前沿模型开发者。政府在人工智能发布中的参与需要建立持久、透明的流程,确保网络防御者及其他相关方能够获得关于强模型访问权限的明确预期。
我们期待以上述方式深化与政府的合作。同时也感谢用户在这段中断期间的包容,感谢与我们一起努力使 Fable 5 和 Mythos 5 重新可用的研究人员及行业伙伴。