美国已解除对 Anthropic 最新 Claude 模型 Fable 5 和 Mythos 5 的出口限制,距特朗普政府将这些模型标记为国家安全风险大约三周。
自今日起,Anthropic 在一篇博客文章中确认,Fable 5 将在全球范围内提供,而美国组织自 6 月 26 日起已恢复对 Mythos 5 的访问权限。Anthropic 表示,目前正在与政府合作,将 Mythos 的访问权限扩大到“Glasswing 计划中更广泛的国内外合作伙伴”。该计划允许受信任公司的网络安全研究人员出于防御目的访问 Mythos。
在路透社和《纽约时报》看到的一封致 Anthropic 的信中,商务部长 Howard Lutnick 表示,Anthropic“将不再需要为其 Claude Mythos 和 Claude Fable AI 模型的出口或国内转移获得许可证”。信中承认,Anthropic 已“与美国政府密切协调采取措施,以解决”这些模型带来的风险。
面对模型发布更长时间的延迟,Lutnick 表示 Anthropic 同意扩大与政府的合作。该公司称,还设立了一个计划,与黑客合作对其模型进行红队测试,现在有一个专门的内部团队 24/7 监控新出现的越狱威胁报告。
在信中,Lutnick 提醒 Anthropic,美国“保留重新评估这些决定的权利”,并可能随时重新施加出口限制。但就目前而言,Lutnick 与白宫办公厅主任 Susie Wiles 一起在 X 上庆祝 Fable 5 的重新部署。
“过去两周,我们与 Anthropic 密切合作,分析并批准了 Fable 5,以确保美国政府的统一立场,并巩固美国在人工智能领域的领导地位,”Lutnick 表示。
Wiles 没有直接提及 Anthropic,但声称这是特朗普的胜利,写道:“政府与私营部门以前所未有的方式携手合作,这种‘美国优先’的基础是前所未有的。我们共同的首要任务仍然是:以最快、最安全的方式部署最好的技术。”
权衡代价:Fable 5 可能会阻止日常编码任务。
6月12日,美国商务部要求Anthropic切断其向美国境外任何人提供最先进模型的访问权限。此举源于担忧中国、俄罗斯或其他相关国家可能利用这些模型攻击美国基础设施,例如电网或银行系统。作为回应,由于Anthropic没有按国家屏蔽用户的手段,该公司关闭了所有访问权限。
Anthropic的博客特别指出,Mythos被视为“对希望在网络攻击中滥用它的恶意行为者具有独特吸引力”。据Anthropic称,该模型“比任何其他模型——乃至所有除最顶尖人类安全专家之外的任何人都能更有效地发现和利用软件漏洞”,并且这些“惊人的网络安全能力”可能被用于对抗美国。
Anthropic表示,Fable 5“共享相同的底层模型”,但与Mythos 5不同,它“不具备任何此类独特的进攻性能力”。Fable 5面向普通公众设计,已经拥有Anthropic迄今为止应用于模型的最强安全防护措施,而Anthropic表示,在重新部署之前,这些防护措施现在变得更强。
经过数周的测试,Fable 5不再容易受到Amazon研究人员发现的一种绕过方法的影响,该方法曾识别出数个软件漏洞并触发了出口限制。Anthropic称,最令人担忧的是一个案例,在该案例中,模型被操纵生成了代码,演示了如何利用某个漏洞。
据Anthropic称,测试证实,市场上能力较弱的竞争模型,如GPT-5.5和Kimi K2.7,“能够像Fable 5在报告中那样识别出相同的漏洞”。这证实了“所报告的技术并未暴露任何独特的Mythos级别的网络能力”,Anthropic表示,“它只涉及常规的防御性网络安全工作。”
“即便如此,我们迅速行动以解决所报告的绕过问题,”Anthropic写道。Anthropic表示,这种越狱方法目前已在超过99%的情况下被屏蔽。然而,该公司承认,加强安全防护措施带来了一个“权衡”,可能导致“在常规编码和调试任务期间”某些良性提示词被屏蔽。
“在与政府密切合作的过程中,我们训练了一个改进版的安全分类器,专门针对并阻断报告中所述的行为,”Anthropic 表示。“如果向 Fable 5 发送的请求被阻断,用户将收到通知,该请求将被转交至 Opus 4.8 处理。”
当然,Anthropic 表示,这个用于帮助避免针对模型的独特危险攻击的新分类器也可能会出现“错误”。该公司长期以来一直认为,要构建一个完全“免疫”越狱攻击的模型“几乎是不可能的”,但通过加大红队测试力度,Anthropic 希望“确保我们和我们的安全合作伙伴能够率先发现重大越狱漏洞,并在恶意行为者利用它们造成危害之前将其修复。”
Anthropic 表示,亚马逊标记出的这种攻击目前仅在“极少数情况下”有效,且“模型提供的信息可能不够详细,无法帮助网络攻击者。”
通过采取“谨慎”态度,Anthropic 称“绝大多数越狱攻击无法成功解除危险行为的限制”,并且“制造这类攻击的成本极高、所需精力极大。”
“即便越狱攻击成功,我们的额外防御层”——这需要拦截一些良性请求——“也能提供进一步的缓解措施,”该公司表示。
Anthropic 对越狱攻击的打分计划
Anthropic 的博文似乎淡化了亚马逊所指出的威胁,将其风险程度描述为低于该公司所认为的对政府最大威胁:即能够解锁广泛漏洞并引发不可预知攻击的通用型越狱攻击。
为了简化公私合作伙伴关系,并确保对最大风险做出最迅速的响应,Anthropic 表示,AI 行业的目标应为对风险进行分类,以确保在内部和政府层面都能进行适当的干预。
目前,Anthropic 正与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴共同“起草一份共识框架,用于评估 AI 越狱攻击的严重程度,以及 AI 开发者应如何应对这些攻击。”
其他行业合作伙伴也欢迎加入这些讨论,Anthropic表示,尽管这一过程“并不完美”,且主要侧重于建立评分越狱攻击的四个标准。这些标准包括:评估越狱攻击提供了多少能力、它启用了多少恶意任务、人类将越狱攻击武器化的难易程度(单次提示词越狱被标记为风险最高),以及发现该越狱攻击是否需要专业知识。
Anthropic的博客称,利用这一框架,该公司已组建了一个团队,将24/7全天候监控越狱攻击提交渠道。该AI公司还确认,正在启动“一项新的HackerOne计划,安全研究人员可通过该计划提交他们在《幻想5》中发现的潜在网络越狱攻击”,以将红队测试作为首要任务。
Anthropic深化与政府的关系
对Anthropic而言,政府测试的一个结果似乎是改善了与政府的关系——此前该公司因一项国家安全风险认定(将这家AI公司列入黑名单)起诉了美国政府。Anthropic声称,该认定是针对该公司拒绝为政府提供模型访问权限以用于制造自主武器或进行国内大规模监控的报复行为。
Anthropic在其博客中表示,正在扩大与政府合作伙伴在部署前测试和评估方面的合作承诺。这些努力将包括:向政府提供前沿模型的早期访问权限、迅速分享关于新型越狱攻击方法的信息,以及投入资源进行联合研究,以“帮助推动AI评估领域的技术前沿”,Anthropic表示。
Anthropic表示,这种合作提供了“在全球范围内有效协调AI风险与收益的初步模板”,同时敦促国会通过立法,确保所有前沿模型开发者步调一致。
政府的行动速度让Anthropic感到担忧。Anthropic CEO达里奥·阿莫迪在本月早些时候提出了他的立法提案,并引用《指环王》来强调自己的观点。
在《指环王》的一个支线情节中,两名霍比特人试图唤醒树须——一棵睿智但行动迟缓的有感知能力的树——让他保卫自己的森林免受砍伐大军的侵害。问题在于树须的行动速度与霍比特人截然不同。他光是跟另一棵树打招呼就需要整整一天,因此要想让他和他的同伴们足够迅速地行动几乎是不可能的。人工智能与我们的政治制度之间的交汇点,感觉有点像霍比特人与树须之间的关系。
最初,特朗普计划对人工智能监管采取不干预态度,以刺激创新。然而,Anthropic 发布的 Mythos 让特朗普感到不安,促使他在五月要求对前沿模型进行自愿安全测试。此后,两名知情人士向《纽约时报》透露,特朗普“仍在制定关于公司应如何正式提交新 AI 模型以供审查,以及它们需要达到什么标准的框架”。
在其帖子中,Amodei 呼吁国会迅速采取行动,为一个“AI 能从有趣的玩具”变成“数据中心里的一个完整天才国度”的世界重新构想安全监管,否则将面临“国家战略”层面的后果。
然而,专注于人工智能与国家安全的非营利组织“前沿安全研究所”的执行主任 Isaac Harris 告诉路透社,在 Anthropic 与政府深化合作之后,“最大的问号”是“来自中国的、具有同等危险能力但护栏更少的技术,美国政府将如何在美国市场上处理”。
值得注意的是,Anthropic 最近指控中国 AI 公司阿里巴巴对 Claude 发动了最大规模的克隆攻击。作为回应,Anthropic 敦促国会通过法律,惩罚那些被发现窃取美国公司成果的中国公司。否则,那些无法获得 Anthropic 模型的恶意行为者可能会转向安全性较低但能力越来越接近的中国模型,对美国发动出其不意的攻击。