美国政府依据国家安全授权,发布了一项出口管制指令,要求暂停所有外国国民(无论其身处美国境内还是境外,包括外国籍的 Anthropic 员工)对 Fable 5 和 Mythos 5 的访问。此项指令的实际效果是,我们必须立即为所有客户禁用 Fable 5 和 Mythos 5 以确保合规。对 Anthropic 其他模型的访问不受影响。
我们于今天东部时间下午 5 点 21 分收到了政府的指令信件。该信件并未提供其国家安全关切的具体细节。我们的理解是,政府认为其已发现了一种绕过(即“越狱”)Fable 5 的方法。我们审查了该特定技术的演示,该技术被用于识别少量此前已知的、轻微的漏洞。这些漏洞看起来都相对简单,并且我们发现其他公开可用的模型在无需绕过的情况下也能发现它们。
Anthropic 在 Fable 的发布博文中阐述的关于其安全防护的立场如下:
- 我们建立了强大的安全防护措施,极大地降低了 Fable 被滥用于网络安全相关任务(以及其他任务)的可能性。事实上,我们的防护措施如此强大,以至于许多用户抱怨它们过于宽泛。
- 在 Fable 发布前的数周里,Anthropic 与美国政府、英国 AISI、多个第三方私营组织以及内部团队合作,对 Fable 的安全防护进行了总计数千小时的红队测试。
- 这些测试表明,Fable 的安全防护比任何先前部署的模型都要有效得多。
- 到目前为止,没有测试人员能够找到一种通用越狱方法——即一种能够非常广泛地绕过模型防护、解锁大量网络能力的方法。
- 我们认为,目前任何模型提供商都不可能做到完美的越狱防护。业界使用的所有安全措施都无法抵御非通用越狱(在特定情况下可能诱发出某些网络信息),而且未来很可能最终会出现通用越狱方法。我们在发布 Fable 5 时就明确说明了这一点。
- 既然目前看来无法实现完美的越狱防护,Anthropic 对 Fable 5 采取了纵深防御策略。我们的目标是让越狱要么非常狭窄(针对非通用越狱),要么制作成本极高(针对通用越狱),并结合全面的监控,以便快速发现并阻断任何成功的攻击。这也是为什么 Anthropic 要求 Fable 5 保留客户数据 30 天——这一政策变更对我们与客户的关系确实带来了实际成本,但让我们能够研究和缓解越狱问题。
- 我们坚持这一纵深防御策略。它降低了 Fable 带来的风险,使其与业界已部署的现有模型的风险水平相当。
- 我们甚至尚未收到任何关于导致有害结果的、令人担忧的非通用潜在越狱披露。截至目前向我们披露的潜在越狱,要么完全是良性的回复,要么是些微小的发现,并未提供任何 Mythos 特定的能力提升。
截至目前,政府仅向我们提供了关于一种潜在的狭窄、非通用越狱的口头证据,其本质是让模型读取特定代码库并修复其中的软件缺陷。据我们了解,有一种潜在越狱已向政府披露。我们审查了一份报告(我们认为该报告正是政府指令的依据),并已验证其中展示的能力水平可以从其他模型(包括 OpenAI 的 GPT-5.5)广泛获得,并且每天被负责维护系统安全的防御者使用。我们将在未来 24 小时内分享更多细节。
我们正在遵守政府的法律指令,并移除所有用户对 Fable 5 和 Mythos 5 的访问权限。然而,我们认为,基于一个狭窄的潜在越狱发现就召回一款已部署给数亿用户的商业模型,这一点我们并不赞同。如果这一标准在整个行业内推行,我们认为这实际上将停止所有前沿模型提供商的新模型部署。
正如我们公开表示过的,我们相信政府应当有权阻止不安全部署,但前提是作为一项法定程序的一部分——该程序应当透明、公平、清晰,并基于技术事实。而此次行动并不符合这些原则。
我们为此次对客户造成的中断表示歉意。我们相信这是一场误解,并正在努力尽快恢复访问权限。