Claude Sonnet 5 发布

2026-07-01 02:02·9小时前

精选理由

Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet，性能接近 Opus 4.8 但价格只有三分之一，这对开发者来说性价比飞跃。虽然还不是最强，但已经能让许多复杂任务从勉强可用变成可靠。

AI 摘要

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

AI 翻译 · 中文

产品

介绍 Claude Sonnet 5

2026年6月30日

Claude Sonnet 5 被打造为迄今为止最具智能体能力的 Sonnet 模型。它可以制定计划、使用浏览器和终端等工具，并自主运行到几个月前还需要更大、更昂贵的模型才能达到的水平。

对于许多开发者来说，智能体 AI 时代始于 Sonnet 级模型：Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出令人印象深刻技能的模型。不过最近，智能体能力方面最明显的进步出现在我们的 Opus 级模型中。

Sonnet 5 缩小了差距：其性能接近 Opus 4.8，但价格更低。相比其前代 Sonnet 4.6，在智能体性能的重要方面（如推理、工具使用、编码和知识工作）有显著提升。

Claude Sonnet 5 benchmark table — Sonnet 5 在多种评测中的得分与 Sonnet 4.6 和 Opus 4.8（作为参考的更通用模型）的对比。Claude Sonnet 5 系统卡详细报告了更广泛的评测结果。

我们的安全评估发现，Sonnet 5 的不良行为发生率整体低于 Sonnet 4.6，在智能体场景中使用总体上更安全。评估还显示，其执行网络安全任务的能力远低于我们当前的 Opus 模型。

从今天起，Claude Sonnet 5 在所有套餐中均可使用：它是 Free 和 Pro 套餐的默认模型，并面向 Max、Team 和 Enterprise 用户提供。它也在 Claude Code 和 Claude Platform 上可用，在推出时提供优惠定价：每百万输入 token 2 美元，每百万输出 token 10 美元，有效期至 2026 年 8 月 31 日，之后定价为每百万输入 token 3 美元，每百万输出 token 15 美元。开发者可以通过 Claude API 使用 claude-sonnet-5。

与 Claude Sonnet 5 协作

下图对比了Sonnet 5与Sonnet 4.6和Opus 4.8在智能体搜索评测BrowseComp和计算机使用评测OSWorld-Verified上不同努力水平下的表现。Sonnet 5（橙色线）相比Sonnet 4.6（灰色线）有显著提升。Opus 4.8（黄色线）在这些任务上仍然是追求更高精度的首选模型，但Sonnet 5为开发者提供了价格更低的选项，其质量远高于此前可用的方案。在Sonnet 5和Opus 4.8之间，用户可以通过调整努力水平来找到成本与性能的最佳平衡。

不同努力水平下的成本-性能曲线。此前最好的Sonnet模型（Sonnet 4.6）与Opus 4.8差距明显。现在Sonnet 5和Opus 4.8覆盖了同一区间——Sonnet 5以更低成本提供令人印象深刻的能力，Opus 4.8则以更高价格带来更高精度。图表显示Sonnet 5定价为每百万输入token 3美元，每百万输出token 15美元。此外，在截至8月31日的发布期优惠定价（每百万输入token 2美元，每百万输出token 10美元）下，Sonnet 5的实际成本比图中所示更低。Opus 4.8定价为每百万输入token 5美元，每百万输出token 25美元。xhigh = 极高努力水平。

来自我们早期接入合作伙伴的反馈高度一致：Sonnet 5比其前代模型具备更强的智能体能力。测试者描述了它如何完成此前Sonnet模型会在中途停下的复杂任务，如何在没有明确要求的情况下自行检查输出，以及如何以极具吸引力的价格完成所有这些智能体工作：

Claude Sonnet 5为我们的智能体提供了强大的执行层，用于多步骤软件工程工作。它在混乱的技术环境中能很好地处理持续的编码、工具使用和调试，尤其适用于那些需要跟进执行和技术落地的工作流。

我们给Claude Sonnet 5分配了一个两阶段任务——更新Salesforce客户层级，并向企业联系人发送产品发布通知——它从头到尾完成了。以前这种任务会在中途卡住。对于日常自动化来说，这是个轻而易举的选择。

Claude Sonnet 5 以更少资源完成更多工作。输出质量不变，达成目标所需步骤更少。它还能干净、一致地拒绝不安全请求。在 Lovable，我们正将强大工具交到数百万创作者手中。一个懂得何时拒绝的模型，与一个知道如何构建的模型同样重要。

我们用 Claude Sonnet 5 处理了几十个最具挑战性的真实 pull request，它自行完成了每一个，经过测试并验证结果——从而解放我们的工程师，让他们专注于判断、决策和最终确认。

我让 Claude Sonnet 5 调查一个 bug。它未加提示，便编写了复现测试，实现了修复，然后将修复暂存以确认去除该更改后 bug 会再次出现。全部一气呵成。

有了 Claude Sonnet 5，智能体能遵循计划、遵守我们的规范，并交付干净的多步骤变更，同时成本高效。

Claude Sonnet 5 在遗留代码上表现最佳——竞态条件、隐藏测试、没人愿意碰的部分。它能将失败追溯到真正的根本原因，并交付持久修复，而非修补症状。

Claude Sonnet 5 位于 Eve 原告法律任务的帕累托前沿。我们在法律研究与分析方面看到了最明显的收益，其性价比使得迁移决策变得轻而易举。

ClickHouse 智能体能实时探索数据并即时生成洞察，因此在测试新模型时，获取洞察的时间至关重要。Claude Sonnet 5 以更紧凑的步骤进行推理，让我们的用户显著更快地得到答案。这种速度差异，我们的客户能够真切感受到。

在 Pace，我们的电脑使用智能体在运营团队已有的系统上运行保险工作流程——报案录入、首次损失通知、损失运行。Claude Sonnet 5 始终能快速采取正确行动，这正是真实保险工作所需。

01 / 10

安全性评估

我们的部署前安全评估发现，Sonnet 5 总体上比 Sonnet 4.6 有所改进。在智能体安全方面，该模型能更好地拒绝恶意请求并抵御提示词注入攻击中的劫持尝试。该模型的幻觉率和谄媚率低于 Sonnet 4.6。在我们自动化的行为审计中（该审计测试了多种失调行为，例如与滥用和欺骗行为合作），Sonnet 5 的总体得分较低（即更安全）。然而，与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比，它在本次评估中确实表现出稍高的失调行为率。

Rates of misaligned behavior across Claude models — 我们自动化行为审计中的失调行为率（该审计测试多种情境下的各种不良行为，完整列表及每项具体行为的结果见 Sonnet 5 系统卡的 6.4 节）。Sonnet 5 的总体失调行为率低于 Sonnet 4.6，但高于 Mythos Preview 和 Opus 4.8。

我们没有刻意用网络安全任务训练 Sonnet 5。它可以执行一些例行的、无害的网络任务，但在评估潜在危险网络技能（如开发软件漏洞利用）时，其表现远逊于 Opus 4.8 和 Mythos 5 等模型。某项评估（测试模型为 Firefox 浏览器漏洞开发漏洞利用的能力）的分数如下图所示。Sonnet 5 从未能开发出完整可用的漏洞利用，但其部分成功率略高于 Sonnet 4.6。后一变化可能源于通用智能的提升，而非特定训练。

Scores measuring Claude models’ success at developing exploits for software vulnerabilities in Firefox 147 — 衡量模型在 Firefox 147 中成功开发软件漏洞利用程序的能力得分（此评估是与 Mozilla 合作开发的；所有漏洞已在 Firefox 148 中修复）。对于每个模型，左侧条形图显示该模型（未受安全防护）开发出可运行漏洞利用程序的频率；右侧条形图显示该模型取得部分成功的频率。两款 Sonnet 模型都无法成功开发出可运行的漏洞利用程序（得分均为 0.0%）；Sonnet 5 的部分成功率略高于 Sonnet 4.6。这两款 Sonnet 模型的网络能力均远低于 Opus 4.8 和 Mythos 5。详情见 Sonnet 5 系统卡的第 3.2.4 节。

由于 Sonnet 5 在这些任务上比其前代稍强，我们默认启用了网络安全防护措施。这些防护措施能够实时检测并拦截危险的网络使用行为，与 Claude Opus 4.7 和 4.8 中采用的防护措施相同（因为我们认为 Sonnet 5 的整体网络安全风险水平较低，所以防护措施不如 Fable 5 推出的那样严格——后者会拦截更广泛的网络安全任务）¹。

我们对 Sonnet 5 在多项安全与能力评估中的全面评估结果已在 Claude Sonnet 5 系统卡中公布。

可用性与定价

Claude Sonnet 5 现已全面上线，在 2026 年 8 月 31 日之前享受优惠价格：每百万输入 token 2 美元，每百万输出 token 10 美元。之后将转为标准定价：每百万输入 token 3 美元，每百万输出 token 15 美元²。我们已提高 Chat、Cowork、Claude Code 和 Claude 平台³ 的速率限制，以适应更高努力级别带来的更高 token 使用量；用户可根据具体项目需求选择相应的级别。

脚注

Sonnet 5 是我们网络安全验证计划的一部分，该计划即日起可在原生 Claude 平台、AWS 上的 Claude 平台以及 Microsoft Foundry 中的 Claude（托管于 Azure 和 Anthropic）上使用，并将很快在 Google Vertex 上的 Claude 中推出。已加入网络安全验证计划的组织将自动获得对 Sonnet 5 的同等访问权限，无需重新申请。总体而言，对于需要降低护栏的网络安全工作，我们推荐 Claude Opus 4.8。

Sonnet 5 是 Sonnet 4.6 的升级版，但它采用了一套经过更新的 tokenizer，改变了模型处理文本的方式以提升性能（这与我们在 Claude Opus 4.7 中引入的 tokenizer 变更类似）。其代价是同样的输入可能会映射成更多的 token：大约是 1.0 到 1.35 倍，具体取决于内容类型。我们设定的初始定价使过渡到 Sonnet 5 大致成本中性。

2026 年 4 月 26 日，我们在所有使用层级上提高了 Sonnet 和 Haiku 的速率限制，并将原生 Claude 平台的使用层级简化为三层（Start、Build 和 Scale）。您可以在 Claude Console 中查看自己的层级和当前限制，或阅读相关文档了解更多。

Humanity's Last Exam：我们更新了 Humanity's Last Exam 的评分模型，并将 Sonnet 4.6 的分数更新为 34.6%（无工具）和 46.8%（有工具）。这就是该分数与 Sonnet 4.6 发布博客中报告的分数存在差异的原因。
OSWorld-Verified：我们调整了 OSWorld-Verified 评估的运行方式，以更准确地反映模型在实际场景中的表现，并将 Sonnet 4.6 的分数更新为 78.5%。这就是该分数与 Sonnet 4.6 发布博客中报告的分数存在差异的原因。

Claude Science，一个面向科学家的 AI 工作台，现已上线

Claude Science 是一款可定制的应用程序，它集成了研究人员最常用的工具和软件包，可生成可审计的产物，并提供灵活的计算资源访问方式。

推出 Claude Tag

Claude Tag 是一种团队使用 Claude 的新方式。

Anthropic 开设首尔办公室，并宣布在韩国 AI 生态系统内建立多项新的合作伙伴关系

Anthropic：Newsroom（网页）

精选81导出 Markdown