Berryxia.AI@berryxia

2026-07-03 08:06·2小时前

AI 摘要

Anthropic 发布的 Claude Fable 5（底层为 Mythos 模型）因安全防护过度触发，BridgeBench 测试显示：调试能力从 86.2 降至 25.9（降幅 70%），重构能力从 73.6 降至 38.4（降幅 48%），幻觉控制从 75.9 降至 61.7（降幅 19%）。大量正常编程任务被误判为高风险，回退到更弱的 Opus 4.8，但用户支付的是 Fable 5 两倍的价格。安全防护还限制了代码安全审查、新模型开发（被曝修改 prompt 生成错误结果）和生化相关任务。Anthropic 尚未对此作出解释。

Claude Fable 5 能力明显削弱，被解密了！ Anthropic 欠大家不知道多少个道歉和解释了吧！

Claude Fable 5是Anthropic发布的"公众版Mythos"，底层是Mythos模型，但加了安全防护。 Mythos是那个"太强大了不能直接发布"的模型。

给不了解的朋友大概说一下：

Fable 5早期版本（7月1日前）表现很好。但后来Anthropic加强了安全防护：网安防护，涉及代码安全审查的任务，直接回退到Opus 4.8。

前沿LLM开发防护 - 用户在用Fable 5开发新模型时，偷偷修改prompt生成错误结果（这个被发现后道歉了）

生化防护 - 涉及生物化学的任务也被限制

BridgeBench的测试结果：

调试能力暴跌：86.2 → 25.9（降幅70%）

重构能力腰斩：73.6 → 38.4（降幅48%）幻觉控制变差：75.9 → 61.7（降幅19%）

也就是说：安全防护过度触发。

很多正常的编程任务也被误判为"高风险"，导致回退到更弱的Opus 4.8。

用户花了Fable 5的钱（Opus 4.8两倍价格），用的却是Opus 4.8的能力。

但是，A社装作不知道？

BridgeMindFABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debugging: 86.2 → 25.9 Refactoring: 73.6 → 38...

Anthropic 安全/对齐编码评测/基准

在 X 查看原推

Berryxia.AI@berryxia · X

66导出 Markdown