# Claude Fable 5 发布24小时被越狱，美国政府紧急下架

- 来源：AYi (@AYi_AInotes)
- 发布时间：2026-06-13 13:25
- AIHOT 分数：75
- AIHOT 链接：https://aihot.virxact.com/items/cmqbxgh8n001lsl5fmwbm94fw
- 原文链接：https://x.com/AYi_AInotes/status/2065666897077576032

## AI 摘要

Claude Fable 5 发布刚24小时，安全层即被 Pliny 团队用多代理协作突破——通过文本混淆、分解重组、学术包装，成功诱导模型生成网络攻击代码、冰毒合成路径等高危内容，并附实锤截图全网传播。该模型安全设计采用分层降级（底层 Mythos 模型+多层分类器），但防不住碎片化恶意拼接。10号越狱帖发酵后，12号美国政府直接下达出口管制指令，全球下架。事件暴露当前对齐技术难以防御结构化多步骤协同攻击，安全护栏只拦普通用户，高水平攻击者可轻易绕过。

## 正文

这或许就是 Fable-5 被美国政府下架/全面禁用的直接导火索之一，

不是很多人说的什么例行合规调整，关键是在发布刚满二十四小时之后，安全层就被人从头到尾扒穿了。

Pliny团队用多代理协作，把文本混淆，分解重组，学术包装一套组合拳打下来，网络攻击代码，冰毒合成路径，心理操纵手法，所有被严令禁止的高风险内容，全给钓了出来，还贴了实锤截图，全网公开传播。

Fable 5的安全设计本来就走的是分层降级路线，底层是最强的Mythos模型，外面套多层分类器，检测到敏感内容就自动切到弱模型处理。

这套逻辑防得住直白提问，防不住拆成碎片的恶意，单问每一步反应机理全是无害知识，拼到一起就是完整的有害路径。

时间线卡得严丝合缝，十号越狱帖发酵，十二号美国政府直接下达出口管制指令，全球下架。

官方说的只是小范围绕过不影响大局没啥卵用，这种公开可复现的漏洞，加上病毒式传播，足够踩爆监管的所有红线。

我觉得这件事最扎心的真相是，
当前的对齐技术，根本防不住结构化多步骤的协同攻击，

安全护栏拦得住普通用户，
但拦不住高水平攻击者，

毕竟现在的前沿模型早就不是普通科技产品了，说是地缘战略资产也不为过，

也就是说说，只要存在被绕过的可能，监管的选择永远是先一刀切再说。

至于我们这些全世界的普通用户，不过是这场博弈里最无关紧要的代价罢了

### 引用推文

> AYi：跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 25-year-old East Asian woman、old-money gl...
