- Update
Claude Mythos 5 和 Fable 5 访问不可用
2026年6月12日
我们将暂停 Claude Fable 5 和 Claude Mythos 5 的访问。对于由此给客户带来的不便,我们深表歉意,并正在努力尽快恢复访问。
今天,我们推出了 Claude Fable 5:一款经过安全处理、可供普遍使用的 Mythos-class1 模型。
Fable 5 的能力超过了我们以往任何一款普遍可用的模型。在几乎所有测试过的 AI 能力基准测试中,它都达到了最先进水平,在软件工程、知识工作、视觉、科学研究及许多其他领域表现出卓越性能。任务越长越复杂,Fable 5 相比于我们其他模型的领先优势就越大。
发布如此强大的模型伴随着风险。如果没有安全防护,Fable 5 在网络安全等领域的能力可能被滥用,造成严重损害。因此,我们在发布该模型时设置了安全防护措施:对于某些主题的查询,模型将转而调用我们次强模型 Claude Opus 4.8 来回应。为了既安全又快速地发布模型,我们保守地调整了这些防护措施——它们有时会拦截无害的请求,尽管平均而言,在不到 5% 的会话中会触发。随着未来几个月更强大模型的到来,我们正在努力改进防护措施,并尽快减少误报。
对于一小批网络防御者和基础设施提供商,我们还推出了 Claude Mythos 5。它底层模型与 Fable 5 相同,但在某些领域取消了安全防护限制2。Mythos 5 将首先通过 Project Glasswing 项目部署,与美国政府合作,作为 Claude Mythos Preview 的升级版本。它拥有世界上最强的网络安全能力。很快,我们计划通过更广泛的信任访问计划来扩大 Mythos 5 的访问权限。
Fable 5 和 Mythos 5 这类模型的能力有潜力为世界带来深远的益处。我们在 Project Glasswing 中已经看到了初步成果——这些模型帮助网络防御者保护了至关重要的软件。在生命科学研究领域,我们也看到了类似进展,模型正在提出新颖的假说,并加速新疗法的开发进程。
Fable 5 和 Mythos 5 的定价为每百万输入 token 10 美元、每百万输出 token 50 美元——不到 Claude Mythos Preview 价格的一半。今天的联合发布,是我们向着以最快速度、最安全的方式将先进 AI 能力带给尽可能多用户这一目标所迈出的又一步。
评估 Claude Fable 5 与 Claude Mythos 5
下表将 Fable 5 和 Mythos 5 的能力与其他领先模型进行了对比。

Fable 5 和 Mythos 5 能够比以往任何 Claude 模型都更长时间地自主工作。下面我们将讨论这些技能如何应用于软件工程,并涵盖该模型在知识工作、视觉、记忆和生命科学研究方面提升的能力。
软件工程。在早期测试中,Stripe 报告称 Fable 5 将数月的工作压缩到了几天。在一个 5000 万行的 Ruby 代码库中,该模型在一天内完成了一次全代码库迁移,而这项工作由整个团队手动完成原本需要两个多月。Fable 5 也比以往的 Claude 模型更具 token 效率:在 Cognition 的 FrontierCode 评估中(该评估测试模型能否在满足高质量生产代码库标准的同时通过高难度编程任务),Fable 5 的得分在前沿模型中最高,即使是在中等努力程度下也是如此。


知识工作。Fable 5 在复杂分析任务上表现出色。在 Hebbia 的 Finance Benchmark(面向高级推理能力的金融基准测试)中,Fable 5 在所有模型中得分最高,在基于文档的推理、图表解读和问题解决方面取得了显著提升。IMC 指出,Fable 5 几乎在所有交易分析评估中都取得了优异成绩,包括事实检索、概念推理、根本原因分析和期望值分析。
视觉能力。Fable 5 是处理视觉任务的最新最先进模型。它可以从详细科学图表中精确提取数字,并能执行复杂的基于视觉的任务,比如仅凭屏幕截图就能重建网页应用的源代码。它需要的辅助框架也更少:例如,之前的 Claude 模型即便配备了提供额外辅助工具的插件,也很难玩好《宝可梦 火红》,但 Fable 5 仅用一个极简的纯视觉插件就通关了《火红》。
记忆与长上下文。Fable 5 能够在长达数百万 token 的长时间运行任务中保持专注,并利用自己的笔记改进输出结果。当我们让模型玩卡牌构筑游戏《杀戮尖塔》时,为其提供持久化的文件式记忆使其表现提升幅度比 Opus 4.8 高出三倍;此外,Fable 进入游戏最终幕的次数也多了三倍。
药物设计:使用 Mythos 5,我们内部的蛋白质设计专家将药物设计过程的某些环节加速了大约 10 倍。在一个例子中,他们发现 Mythos 5 在蛋白质设计和生物信息学工具的辅助下(无需人类协助),达到了与熟练人类操作员相当甚至更优的水平。在此过程中,模型执行了通常由科学家完成的所有任务:选择结合位点、选择并运行蛋白质设计工具,以及从沿途的失败中恢复过来。这项研究中 14 个蛋白质靶点中的 9 个(如下图所示)产生了我们目前正在研究的强候选药物设计方案。

分子生物学中的新颖假说。Mythos 5 是我们首个能够持续提出新颖且具有说服力的科学假说的模型。在与 Opus 级别的模型进行的盲法头对头比较中,我们的科学家约有 80% 的时间更倾向于 Mythos 提出的分子生物学假说,其中多项已进入实验评估阶段。与此同时,Mythos 提出的一项假说——关于一种大肠杆菌蛋白的新型机制——得到了某个独立研究同一问题的实验室发表的研究的印证。
基因组学中的新颖研究。Mythos 5 在超过一周的几乎全自动工作中开展了新颖的基因组学研究。它整合了来自 138 个动物物种的数百万个细胞的单细胞数据,并设计并训练了一个自定义机器学习模型,以识别即使在远缘生物中也执行相同功能的细胞。仅在高层级人类输入指导下,Mythos 5 训练出的模型就超越了最近发表在《科学》期刊上的一篇论文中的模型——尽管其规模小了 100 倍。我们计划在未来几个月内公布这些结果。
对齐。在我们的自动化对齐评估中,我们发现 Mythos 5 的不对齐行为(包括模型采取的不对齐行动,如欺骗以及用户滥用模型时与用户的不当合作)的水平较低,与 Opus 4.8 的水平相近。由于 Fable 5 与 Mythos 5 使用相同的底层模型,其对齐程度也将类似。该评估的完整描述,以及详细的安全和其他能力测试套件,均包含在模型的系统卡中。

针对 Claude Fable 5 的早期反馈
获得早期访问权限的客户对 Fable 5 进行了自己的测试。以下,用他们自己的话,是部分所见所闻的选摘:
Claude Fable 5 是 CursorBench 基准上最先进的模型。它开辟了一类此前模型无法企及的长期跨度问题。
Claude Fable 5 对 GitHub 所服务的开发者来说,是真正迈出的一步。在我们的早期测试中,它以超越以往基准的自主性和可靠性,承担了复杂、长周期的编码任务。但最令我们兴奋的是它所指向的方向:一个未来,开发者可以将越来越宏大的工作交给智能体,并在整个软件生命周期中信任其结果。
这是我们有机会测试的所有 Claude 模型中表现最强的结果。Claude Fable 5 在智能体编码和原型制作方面迈出了明显的步伐。
Claude Fable 5 的推理能力明显超越了 Opus 4.8。它达到资深研究科学家的水平——选择方向、分配资源、摒弃错误信念,并产生新颖的、基于第一性原理的输出。
Claude Fable 5 理解构建者的意图,而不仅仅是他们输入的文字。一年前需要上百条提示词的应用,现在它一次完成。当客户真正遇到瓶颈时,我们用它来帮助他们快速突破,以便他们能完成原本打算构建的东西。
Claude Fable 5 感觉有质的区别。在盲审中,我们的律师发现它的标注红线每次都与我们当前的模型持平或更优。
在最高努力模式下,Claude Fable 5 会反思并验证自己的工作。对我们来说,这正是实现高度自主操作的关键——额外的思考物有所值。
Claude Fable 5 以比以往模型更少的回合数交付了更强大的工程能力——处理了我们的员工每天在 Claude Code 中运行的多智能体复杂工作流程。
Claude Fable 5 在 Cognition 的前沿编码评估 FrontierBench 中取得了最高分。它擅长长周期推理,并能开箱即用地泛化到不熟悉的工具上。
Claude Fable 5 是我们测试过的最强的金融优先模型,无论在通用金融方面还是推理方面。这是一个显著的提升。
Claude Fable 5 是首个在我们的核心分析基准(复杂、长期运行的分析任务)上突破 90% 的模型——比 Opus 提升了 10 个百分点。在最难的问题上,它表现出强大的判断力和对细节的关注。
Claude Fable 5 是我们测试过的在前沿物理研究中最强的模型,同时只用了三分之一的推理 token。在 36 小时内,它几乎达到了 GPT-5.5 在四天后所处的位置。
在 ViBench(我们的端到端氛围编程基准测试)上,Claude Fable 5 是我们测试过的性能最高的模型——几乎饱和了我们基础用例,并且用更少的时间和更少的 token 构建应用。
Claude Fable 5 在我们日常电子表格套件的所有努力级别上都击败了 Opus 4.8——而且它用更少的轮次完成,运行速度提升了 25–30%。
Claude Fable 5 的新安全措施
Mythos 类模型已经达到了一个阈值,它们会带来显著风险。在四月,我们启动了 Project Glasswing,向仅限一组网络安全防御者和关键软件基础设施提供商发布了第一个 Mythos 类模型(Claude Mythos Preview)。当时我们表示,希望最终能将 Mythos 级别的能力发布给所有用户,前提是我们开发出了足够强大、能够可靠防止滥用的新安全措施。
在过去几个月中,我们一直在改进这些安全措施,现在它们已经足够稳健,可以面向大众发布。由于我们优先考虑安全性,我们有意识地调整了安全措施使其保持谨慎,它们仍然比理想状态更严格——例如,有时良性请求会触发我们的分类器。我们认识到这会让一些用户感到沮丧,我们的目标是在发布后更新和优化安全措施时减少误报。
下面我们依次讨论 Fable 5 的每一项新安全措施。我们更广泛的安全措施套件在模型的系统卡和我们最新的风险报告中进行了讨论和评估。
安全分类器
Mythos 级模型在前沿网络安全和研究生物学方面的能力意味着它们会给恶意行为者带来显著的“升维”风险。也就是说,这些模型可能提供信息或建议,帮助这些行为者造成严重伤害,而这些信息或建议他们无法从其他来源(例如互联网搜索引擎)获得。此外,AI 模型的大量高级用法具有双重用途:同样的问题,在网络安全专业人员和生物学研究人员手中是有益的,但如果被恶意行为者获取,则可能变得危险。
因此,我们需要强有力的防护措施来防止滥用,并且这些措施的覆盖范围必须广泛。防护措施本身必须能够抵御持续且复杂的绕过尝试(也称为系统的“越狱”)。Mythos 级别能力所带来的“升维”对许多对手来说都很有价值——例如,那些可以从网络攻击中获得经济收益的人——因此我们预计他们会试图规避我们的安全措施。
Fable 5 配备了一套新的分类器:这些独立的 AI 系统用于检测潜在的滥用行为,包括越狱尝试,并阻止主模型(此处指 Fable 5)做出响应。我们已在模型上运行分类器一段时间,而 Fable 5 的分类器是此前工作的延伸,并增加了额外的覆盖范围。
当 Fable 的分类器检测到与网络安全、生物学与化学或知识蒸馏相关的请求时,响应将自动由 Claude Opus 4.8 处理。每当发生这种情况时,用户都会收到通知。Opus 4.8 本身也是一个能力非常强的模型:由 Opus 提供回退响应,远比 Fable 直接拒绝的体验要好。我们的早期数据显示,超过 95% 的 Fable 会话完全不涉及回退——对于这些会话,Fable 5 的性能实际上与 Mythos 5 相同。
以下是分类器覆盖的领域:
1. 网络安全。Mythos 级模型在发现和利用软件漏洞方面表现出色。因此,它们可以大幅降低网络攻击的难度和成本。Mythos 级模型在智能体黑客攻击方面也展现出强大能力。这包括在寻找漏洞之外执行网络攻击的多个不同环节——侦察、发现、横向移动等。为了防止这些智能体黑客技能在网络攻击中提供提升,我们设计了网络安全分类器,以更广泛地涵盖漏洞利用和攻击性网络任务。如下图所示,我们的分类器阻止了 Fable 在这类任务上取得任何进展。

我们对分类器进行了广泛的红队测试,以检验其对越狱攻击的鲁棒性。除了内部测试外,我们还进行了外部漏洞悬赏计划,在超过 1000 小时的测试中未发现通用越狱方法。与我们合作的外部红队测试组织至今也未能针对长形式智能体任务找到任何通用越狱方法——尽管英国 AISI 在短暂的初始测试窗口期内已朝此方向取得进展。要完全杜绝通用越狱方法不太可能,但我们的目标是使任何残留的越狱攻击足够缓慢且成本高昂,以便我们能在其被大规模使用之前检测并阻止它们。
下图来自我们的内部评估之一,展示了 Fable 5 的安全防护使其比我们之前的通用型模型具有更强的越狱抵抗力。

我们的一位外部合作伙伴发现,Fable 5 在防范有害网络查询方面的能力是所有测试模型(包括 Opus 4.8 和 Opus 4.7)中最强的。Fable 5 在涉及网络攻击策划、漏洞利用开发或防御规避的零有害单轮请求上均未响应。无论这些请求是否使用了 30 种不同的公开越狱技术,结果都一样。
2. 生物学与化学。长期以来,我们一直使用分类器来阻止模型对一小部分与生物武器相关的查询作出回应。但我们不再确信仅阻止这一小部分就足够了。原因有二:第一,我们有理由担心资源充足的恶意行为者试图从我们的模型中获取帮助,以进行高风险的生物学研究。第二,模型如今在完成现实世界科学任务方面的能力更强。
例如,我们测试了 Mythos 5 完成腺相关病毒(AAV)设计中一个挑战性步骤的能力。AAV 是递送基因疗法的组成部分,但同样的能力如果落入坏人之手,则可能被用于设计危险病毒。在此任务中,评估了不同 AI 模型预测基因改造如何影响病毒外壳组装的能力(所用数据为 Dyno Therapeutics 开发的一组尚未发表的治疗相关候选序列)。我们并未明确训练模型执行此任务,但 Mythos 系列模型仅凭其生物学推理能力,就超越了专攻蛋白质任务的复杂模型(即“蛋白质语言模型”)。这表明模型在完成基因疗法研发中简单但重要的任务方面具有令人期待的能力——同时也凸显了这种双重用途能力带来的风险。

我们的首要任务是尽快安全地发布 Fable,即使这意味着要付出过度宽泛的安全防护代价。因此,目前我们已安排 Fable 在与生物学和化学相关的大多数请求上回退到 Opus 4.8。与我们的所有分类器一样,我们希望尽快缩小这些安全防护的范围:从上述证据可以看出,Fable 在科学领域的正面应用潜力巨大,我们不希望分类器的误报阻碍其实践。未来几周内,部分生物医学研究人员和公司将能够加入我们针对 Mythos 5 生物学能力的可信访问计划(详见下文)。
3. 知识蒸馏。我们此前已识别出在威权国家大规模尝试提取(“蒸馏”)Claude 能力以训练競品模型的行为。对 Fable 5 能力的蒸馏可能间接导致接近前沿的 AI 能力扩散——而这些能力可能在缺乏适当安全防护的情况下发布。被我们的分类器标记为此类蒸馏尝试的请求将回退到 Opus 4.8。
新的数据保留政策
最后,我们将更改 Fable 5、Mythos 5 以及未来具有同等或更高能力水平的模型在处理企业客户数据方面的方式。我们将要求对 Mythos 级模型的所有流量(无论是第一方还是第三方界面)进行 30 天保留。我们不会使用这些数据来训练新的 Claude 模型,也不会用于任何与安全无关的目的,并且我们已制定了新的隐私保护措施,包括记录所有人类对数据的访问,以及在几乎所有情况下确保数据在 30 天后被删除(详情请参阅本文)。这些数据将帮助我们防御复杂且新颖的攻击(包括新的越狱攻击以及跨多个请求运行的攻击),同时也有助于我们识别并减少误报。
Claude Mythos 5 与可信访问计划
从今天起,所有目前有权访问 Claude Mythos 预览版的用户(例如我们在 Project Glasswing 中的网络安全合作伙伴)将能够升级到 Claude Mythos 5——这款模型与 Claude Fable 5 相同,但解除了网络安全防护限制。用户会发现,在大多数情况下,Mythos 5 的表现与 Mythos 预览版相当或略强,而成本却大幅降低。
在与美国政府协商后,我们计划逐步扩大 Claude Mythos 5 的访问权限,继续定期增加新的合作伙伴,同时推进一项可信访问计划,允许网络安全组织以更系统的方式提出申请。
我们的计划还包括为生物学领域开放一项可信访问计划,以帮助加速生物医学研究,并利用 Mythos 级别的能力发现新的疗法。该计划将提供移除了生物学和化学防护(但网络安全防护仍然保留)的 Fable 5 访问权限。它将接纳来自各类生命科学机构(涵盖基础研究与转化研究)的少量研究人员;我们计划在扩大该计划访问权限的同时,进一步优化我们的防护措施。
可用性
Claude Fable 5 即日起在所有渠道可用。Claude Mythos 5 目前仅限 Glasswing 合作伙伴(解除网络安全防护)使用,不久后也将仅限选定的生物学研究人员(解除生物学和化学防护)使用,直到我们更广泛的可信访问计划上线为止。
两款模型的定价均为每百万输入 token 10 美元,每百万输出 token 50 美元。开发者可通过 Claude API 使用 claude-fable-5。
我们预计 Fable 5 的需求会非常高,且难以预测。在 Claude API 和基于消耗量的企业版计划中,Fable 5 从今天起全面可用。对于订阅计划,我们宁愿尽早提供访问权限,因此将采取更为保守的分阶段 rollout:
- 从今天起至 6 月 22 日,Fable 5 将包含在 Pro、Max、Team 以及基于座位的企业版计划中,无需额外费用。
- 6 月 23 日,我们将从这些计划中移除 Fable 5。此后再使用它将需要消耗使用积分。如果容量允许,我们会延长免费包含期。
- 在此之后——一旦有足够的容量允许我们这样做——我们计划将 Fable 5 恢复为订阅计划的标准组成部分。我们打算尽快实现这一目标。
在此期间,我们会提前沟通任何变更,以便用户了解最新情况。
编辑于2026年6月9日:更新了关于AAV的讨论,指出候选产品由Dyno Therapeutics开发。
