Claude Sonnet 5 是迄今为止最具智能体能力的 Sonnet 系列模型。它能够制定计划、使用浏览器和终端等工具,并以仅在几个月前还需要更大、更昂贵的模型才能达到的水平自主运行。
对于许多开发者而言,智能体 AI 时代始于 Sonnet 级模型:Claude Sonnet 3.5、3.6 和 3.7 是在编程和工具使用方面展现出令人印象深刻能力的首批模型。然而,最近在智能体能力方面最明显的提升来自我们的 Opus 级模型。
Sonnet 5 缩小了这一差距:其性能接近 Opus 4.8,但价格更低。与上一代 Sonnet 4.6 相比,在推理、工具使用、编程和知识工作等重要智能体性能方面,它都有显著提升:

我们的安全评估发现,与 Sonnet 4.6 相比,Sonnet 5 的不良行为总体发生率更低,并且在智能体场景下使用通常更安全。评估还显示,它执行网络安全任务的能力远低于我们当前的 Opus 模型。
从今天起,Claude Sonnet 5 在所有方案中均可使用:它是免费版和 Pro 版的默认模型,同时也可供 Max、Team 和 Enterprise 用户使用。它还在 Claude Code 和 Claude 平台上可用,上线初期提供优惠定价——每百万输入模型 token 2 美元、每百万输出模型 token 10 美元,有效期至 2026 年 8 月 31 日;之后定价为每百万输入模型 token 3 美元、每百万输出模型 token 15 美元。开发者可通过 Claude API 使用 claude-sonnet-5。
与 Claude Sonnet 5 合作
下图将 Sonnet 5 与 Sonnet 4.6 及 Opus 4.8 在不同推理层级下,针对智能体搜索评测基准 BrowseComp 和计算机使用评测基准 OSWorld-Verified 的表现进行了对比。Sonnet 5(橙色线)相较于 Sonnet 4.6(灰色线)有显著提升。在这些任务上,Opus 4.8(黄色线)仍然是追求更高精度的首选模型,但 Sonnet 5 为开发者提供了价格更低、质量远高于此前可选方案的选项。在 Sonnet 5 与 Opus 4.8 之间,用户可以通过调整推理层级,找到成本与性能的最佳平衡点。

来自我们早期访问合作伙伴的反馈一致表明:Sonnet 5 比其前代模型更具智能体能力。测试者描述它如何完成此前 Sonnet 模型会在中途停下的复杂任务,如何在没有明确要求的情况下自行检查输出,以及如何以极具吸引力的价格完成所有这些智能体工作:
Claude Sonnet 5 为我们的智能体提供了强大的执行层,用于多步骤软件工程工作。它能够很好地处理持续编码、工具使用和调试,即使在混乱的技术上下文中也表现出色,并且在那些需要跟进到底和技术扎实的工作流程中尤其有用。
我们给 Claude Sonnet 5 分配了一个两部分的任务——更新 Salesforce 客户层级、向企业联系人发送发布公告——它从头到尾完成了。过去这种任务往往做到一半就卡住。对于日常自动化来说,这简直是不用思考的选择。
Claude Sonnet 5 用更少的步骤完成更多工作。输出质量不变,到达目标的步骤更少。它还能干净利落、始终如一地拒绝不安全的请求。在 Lovable,我们正在为数百万开发者提供强大工具。一个懂得何时拒绝的模型,和一个懂得如何构建的模型同样重要。
我们让 Claude Sonnet 5 处理了几十个最具挑战性的真实拉取请求,它完全靠自己完成了每一项——从测试到验证结果——让我们的工程师得以专注于判断、决策和最终签字确认。
我让 Claude Sonnet 5 调查一个 bug。它未经提示就自己写了一个复现测试、实现了修复,然后将修复暂存以确认去掉改动后 bug 确实会复现。全部一气呵成。
有了 Claude Sonnet 5,智能体能够坚持计划、遵循我们的规范、交付干净的多步骤改动,同时成本保持高效。
Claude Sonnet 5 最擅长处理存量代码——竞态条件、隐藏的测试、没人愿意碰的部分。它能将故障追溯到真正的根因,并交付持久的修复,而不是只打补丁掩盖症状。
在 Eve 的原告律师任务中,Claude Sonnet 5 位于帕累托前沿。我们在法律研究和分析方面看到了最明显的提升,其性价比使得迁移决策变得轻而易举。
ClickHouse 智能体实时探索数据并即时产生洞察,因此在测试新模型时,从数据到洞察的时间至关重要。Claude Sonnet 5 以更紧凑的步骤进行推理,让我们的用户明显更快地获得答案。这种速度是我们的客户能真切感受到的差异。
在 Pace,我们的计算机使用智能体在运营团队已在使用的系统上运行保险工作流——保单提交、首次损失通知、损失报告。Claude Sonnet 5 始终能快速、正确地采取行动,这正是真实保险业务所需。
安全评估
我们在部署前的安全评估中发现,Sonnet 5 相比 Sonnet 4.6 整体有所改进。在智能体安全性方面,该模型更擅长拒绝恶意请求,并能更好地抵御提示词注入攻击中的劫持尝试。与 Sonnet 4.6 相比,该模型的幻觉率和谄媚率更低。在我们覆盖面广泛的对齐不良行为(如与滥用和欺骗行为配合)自动化行为审计中,Sonnet 5 的整体得分更低(即更安全)。然而,与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比,它在本次评估中确实显示出略高的对齐不良行为率。

我们并未刻意针对网络安全任务训练 Sonnet 5。它能执行一些常规、无害的网络任务,但在评估潜在危险网络技能(例如开发软件漏洞利用)时,其表现明显逊于 Opus 4.8 和 Mythos 5 等模型。下图展示了某次评估的分数,该测验了模型针对 Firefox 浏览器漏洞开发利用程序的能力。Sonnet 5 从未能开发出完整可用的漏洞利用程序,但其部分成功率略高于 Sonnet 4.6。这一变化很可能归因于通用智能的提升,而非特定训练所致。

由于 Sonnet 5 在这些任务上相比前代有所增强,我们已默认启用了网络安全防护措施。这些防护措施——能够实时检测并阻止危险的网络使用行为——与 Claude Opus 4.7 和 4.8 中采用的防护措施相同(因为我们判断 Sonnet 5 的整体网络安全风险较低,其防护措施严格程度低于 Fable 5 发布时启用的、会阻止更广泛网络安全任务的防护措施)。1
我们对 Sonnet 5 在多项安全与能力评估中的完整评估结果,将在 Claude Sonnet 5 系统卡中报告。
可用性与定价
Claude Sonnet 5 今日起全面上市,提供入门定价:每百万输入 token 2 美元,每百万输出 token 10 美元,有效期至 2026 年 8 月 31 日。之后将转为标准定价:每百万输入 token 3 美元,每百万输出 token 15 美元。2 我们提高了 Chat、Cowork、Claude Code 以及 Claude 平台3 的速率限制,以适应更高努力水平下更高的 token 使用量;用户可根据自身项目的具体需求选择相应的努力水平。
