Claude Sonnet 5 被打造为迄今为止最具智能体能力的 Sonnet 模型。它可以制定计划、使用浏览器和终端等工具,并自主运行到几个月前还需要更大、更昂贵的模型才能达到的水平。
对于许多开发者来说,智能体 AI 时代始于 Sonnet 级模型:Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出令人印象深刻技能的模型。不过最近,智能体能力方面最明显的进步出现在我们的 Opus 级模型中。
Sonnet 5 缩小了差距:其性能接近 Opus 4.8,但价格更低。相比其前代 Sonnet 4.6,在智能体性能的重要方面(如推理、工具使用、编码和知识工作)有显著提升。

我们的安全评估发现,Sonnet 5 的不良行为发生率整体低于 Sonnet 4.6,在智能体场景中使用总体上更安全。评估还显示,其执行网络安全任务的能力远低于我们当前的 Opus 模型。
从今天起,Claude Sonnet 5 在所有套餐中均可使用:它是 Free 和 Pro 套餐的默认模型,并面向 Max、Team 和 Enterprise 用户提供。它也在 Claude Code 和 Claude Platform 上可用,在推出时提供优惠定价:每百万输入 token 2 美元,每百万输出 token 10 美元,有效期至 2026 年 8 月 31 日,之后定价为每百万输入 token 3 美元,每百万输出 token 15 美元。开发者可以通过 Claude API 使用 claude-sonnet-5。
与 Claude Sonnet 5 协作
下图对比了Sonnet 5与Sonnet 4.6和Opus 4.8在智能体搜索评测BrowseComp和计算机使用评测OSWorld-Verified上不同努力水平下的表现。Sonnet 5(橙色线)相比Sonnet 4.6(灰色线)有显著提升。Opus 4.8(黄色线)在这些任务上仍然是追求更高精度的首选模型,但Sonnet 5为开发者提供了价格更低的选项,其质量远高于此前可用的方案。在Sonnet 5和Opus 4.8之间,用户可以通过调整努力水平来找到成本与性能的最佳平衡。

来自我们早期接入合作伙伴的反馈高度一致:Sonnet 5比其前代模型具备更强的智能体能力。测试者描述了它如何完成此前Sonnet模型会在中途停下的复杂任务,如何在没有明确要求的情况下自行检查输出,以及如何以极具吸引力的价格完成所有这些智能体工作:
Claude Sonnet 5为我们的智能体提供了强大的执行层,用于多步骤软件工程工作。它在混乱的技术环境中能很好地处理持续的编码、工具使用和调试,尤其适用于那些需要跟进执行和技术落地的工作流。
我们给Claude Sonnet 5分配了一个两阶段任务——更新Salesforce客户层级,并向企业联系人发送产品发布通知——它从头到尾完成了。以前这种任务会在中途卡住。对于日常自动化来说,这是个轻而易举的选择。
Claude Sonnet 5 以更少资源完成更多工作。输出质量不变,达成目标所需步骤更少。它还能干净、一致地拒绝不安全请求。在 Lovable,我们正将强大工具交到数百万创作者手中。一个懂得何时拒绝的模型,与一个知道如何构建的模型同样重要。
我们用 Claude Sonnet 5 处理了几十个最具挑战性的真实 pull request,它自行完成了每一个,经过测试并验证结果——从而解放我们的工程师,让他们专注于判断、决策和最终确认。
我让 Claude Sonnet 5 调查一个 bug。它未加提示,便编写了复现测试,实现了修复,然后将修复暂存以确认去除该更改后 bug 会再次出现。全部一气呵成。
有了 Claude Sonnet 5,智能体能遵循计划、遵守我们的规范,并交付干净的多步骤变更,同时成本高效。
Claude Sonnet 5 在遗留代码上表现最佳——竞态条件、隐藏测试、没人愿意碰的部分。它能将失败追溯到真正的根本原因,并交付持久修复,而非修补症状。
Claude Sonnet 5 位于 Eve 原告法律任务的帕累托前沿。我们在法律研究与分析方面看到了最明显的收益,其性价比使得迁移决策变得轻而易举。
ClickHouse 智能体能实时探索数据并即时生成洞察,因此在测试新模型时,获取洞察的时间至关重要。Claude Sonnet 5 以更紧凑的步骤进行推理,让我们的用户显著更快地得到答案。这种速度差异,我们的客户能够真切感受到。
在 Pace,我们的电脑使用智能体在运营团队已有的系统上运行保险工作流程——报案录入、首次损失通知、损失运行。Claude Sonnet 5 始终能快速采取正确行动,这正是真实保险工作所需。
安全性评估
我们的部署前安全评估发现,Sonnet 5 总体上比 Sonnet 4.6 有所改进。在智能体安全方面,该模型能更好地拒绝恶意请求并抵御提示词注入攻击中的劫持尝试。该模型的幻觉率和谄媚率低于 Sonnet 4.6。在我们自动化的行为审计中(该审计测试了多种失调行为,例如与滥用和欺骗行为合作),Sonnet 5 的总体得分较低(即更安全)。然而,与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比,它在本次评估中确实表现出稍高的失调行为率。

我们没有刻意用网络安全任务训练 Sonnet 5。它可以执行一些例行的、无害的网络任务,但在评估潜在危险网络技能(如开发软件漏洞利用)时,其表现远逊于 Opus 4.8 和 Mythos 5 等模型。某项评估(测试模型为 Firefox 浏览器漏洞开发漏洞利用的能力)的分数如下图所示。Sonnet 5 从未能开发出完整可用的漏洞利用,但其部分成功率略高于 Sonnet 4.6。后一变化可能源于通用智能的提升,而非特定训练。

由于 Sonnet 5 在这些任务上比其前代稍强,我们默认启用了网络安全防护措施。这些防护措施能够实时检测并拦截危险的网络使用行为,与 Claude Opus 4.7 和 4.8 中采用的防护措施相同(因为我们认为 Sonnet 5 的整体网络安全风险水平较低,所以防护措施不如 Fable 5 推出的那样严格——后者会拦截更广泛的网络安全任务)¹。
我们对 Sonnet 5 在多项安全与能力评估中的全面评估结果已在 Claude Sonnet 5 系统卡中公布。
可用性与定价
Claude Sonnet 5 现已全面上线,在 2026 年 8 月 31 日之前享受优惠价格:每百万输入 token 2 美元,每百万输出 token 10 美元。之后将转为标准定价:每百万输入 token 3 美元,每百万输出 token 15 美元²。我们已提高 Chat、Cowork、Claude Code 和 Claude 平台³ 的速率限制,以适应更高努力级别带来的更高 token 使用量;用户可根据具体项目需求选择相应的级别。
