Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
阅读原文· marktechpost.comAnthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。
Anthropic 刚刚发布了 Claude Sonnet 5。他们称其为迄今为止最具智能体能力的 Sonnet 模型。它能制定计划、操控浏览器和终端,并在长时间任务中自主运行。
今天起,Sonnet 5 成为 Free 和 Pro 套餐的默认模型。Max、Team 和 Enterprise 用户可以选择它。它也已登陆 Claude Code 和 Claude 平台。
摘要
- Sonnet 5 是 Anthropic 最具智能体能力的中端模型,大大缩小了与 Opus 4.8 之间的差距。
- 在所有已发布基准测试中都优于 Sonnet 4.6:SWE-bench Pro 63.2%,OSWorld-Verified 81.2%,HLE 57.4%。
- 运行成本更低:至 8 月 31 日为止,每 MTok 介绍性定价为 $2/$10,之后为 $3/$15;Opus 4.8 为 $5/$25。
- 在低/中投入水平下性价比最佳;在超高投入下,为获得相近质量,可能比 Opus 4.8 更贵。
- 比 4.6 更安全,刻意降低了网络能力——对于精度要求高的工作,Opus 仍是首选。
Claude Sonnet 5
Sonnet 处于 Anthropic 产品线的中间位置。它比更便宜的 Haiku 4.5 高,比旗舰产品 Opus 4.8 低。
Sonnet 5 是对 2026 年 2 月发布的 Sonnet 4.6 的升级。Anthropic 将这次发布定义为围绕智能体可靠性,而非某个单项基准测试。
实际应用中,这意味着更长的任务链不会丢失上下文。这意味着当工具调用失败时能更好地自我修正。这意味着在 Claude Code 或 Cowork 中,长时间会话下的行为更加稳定。
该模型开放了投入水平选项:低、中、高和超高。更高的投入会在推理上花费更多 token。这同时提升了质量和成本。
需要指出的是,Sonnet 5 使用了更新的分词器,与 Opus 4.7 引入的相同。同样一段文本对应的 token 数量大约会增加 1.0 到 1.35 倍。
交互式说明
Claude Sonnet 5 — 成本与能力探索器
估算各模型每任务成本,并对比已发布基准测试。所有数据均来自 Anthropic 于 2026 年 6 月 30 日发布的版本。
每任务成本估算器
已发布基准对比
基准测试
Anthropic 团队发布了一份基准测试对比表,比较了 Sonnet 5、Sonnet 4.6 和 Opus 4.8。Sonnet 5 在每一项测试类别中都超越了前代。它大幅缩小了与 Opus 4.8 的差距。
在智能体编程(SWE-bench Pro)上,Sonnet 5 得分 63.2%。Sonnet 4.6 得分为 58.1%。Opus 4.8 仍以 69.2% 领先。
在计算机使用(OSWorld-Verified)上,Sonnet 5 取得 81.2%,Sonnet 4.6 为 78.5%。在 Terminal-Bench 2.1 上,它达到 80.4%,后者为 67.0%。
在带工具的人类最后考试上,Sonnet 5 达到 57.4%。这几乎与 Opus 4.8 的 57.9% 持平。
有一个方面 Sonnet 5 略微领先。在 GDPval-AA v2 知识工作基准上,它得分 1,618,而 Opus 4.8 为 1,615。


努力级别:真正的权衡所在
成本与性能的关系对开发者来说是最重要的部分。Sonnet 5 在每个努力级别上都是对 Sonnet 4.6 的严格改进。最明显的价值出现在低和中等努力级别。
在这些级别上,Sonnet 5 提供的质量是以往 Sonnet 定价无法买到的。Opus 4.8 在高端范围内仍然是准确率的领先者。
由此可以得出一个实用的路由策略:将大多数智能体编程、工具使用和知识工作交给 Sonnet 5;将 Opus 4.8 保留给准确率关键型任务;将 Haiku 4.5 用于高吞吐量、低延迟的调用。
用例:Sonnet 5 的适用场景
早期访问合作伙伴描述了具体的工作流程。他们的报告对应常见的工程任务。
- 多步软件工程:一位测试者让 Sonnet 5 调查一个 bug。它编写了复现测试、实现了修复,然后确认没有该更改时 bug 会再次出现。它在一个回合中完成了这一流程。
- 遗留系统调试:另一位合作伙伴将其用于棘手的拉取请求。模型将失败追溯到根本原因。它交付了持久的修复而非症状补丁。
- 业务流程自动化:Zapier 交给它一个包含两部分的任务。它先更新了 Salesforce 的客户等级,然后向企业联系人发送了一封启动邮件。它端到端地完成了整个任务。
- 计算机使用智能体:Pace 运行保险工作流程,例如投保单录入和损失报告。它的智能体在团队已经使用的运营系统上执行操作。
- 数据探索:ClickHouse 智能体查询实时数据并即时生成洞察。更快的推理意味着分析师能更快地获得洞察。
对比表格
| 指标 / 规格 | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| 智能体编码 (SWE-bench Pro) | 58.1% | 63.2% | 69.2% |
| Terminal-Bench 2.1 | 67.0% | 80.4% | 未报告 |
| 计算机使用 (OSWorld-Verified) | 78.5% | 81.2% | 未报告 |
| Humanity’s Last Exam (使用工具) | 46.8% | 57.4% | 57.9% |
| 知识工作 (GDPval-AA v2) | 未报告 | 1,618 | 1,615 |
| 输入价格 ($/MTok) | 3 | 2 首发价,后为 3 | 5 |
| 输出价格 ($/MTok) | 15 | 10 首发价,后为 15 | 25 |
Sonnet 5 的首发定价有效期至 2026 年 8 月 31 日。该日期之后将执行 $3/$15 的标准定价。同时适用标准提示词缓存(缓存读取按输入价格的 0.1 倍计费)以及 Batch API 五折优惠。按模型 token 计算,Sonnet 5 价格低于 GPT-5.5 和 Gemini 3.1 Pro,但高于 Gemini 3.5 Flash。Anthropic 在其发布公告中列出 Sonnet 5 的上下文窗口为 100 万 token。该公司未公布此处其他模型的上下文窗口数据。
编码示例:调用 Sonnet 5
API 调用方式与任何其他 Anthropic 模型相同。只需将模型字符串改为 claude-sonnet-5。
import anthropic
client = anthropic.Anthropic() # reads ANTHROPIC_API_KEY
message = client.messages.create(
model="claude-sonnet-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Find the race condition in worker.py and ship a tested fix."}
],
)
print(message.content[0].text)优势与劣势
优势:
- 在 Anthropic 测试的每个基准类别上均较 Sonnet 4.6 有所提升
- 在多项评估中接近 Opus 4.8 的质量,但模型 token 单价更低
- 在 GDPval-AA v2 知识工作基准上略优于 Opus 4.8
- 相比 Sonnet 4.6,模型幻觉、谄媚行为以及不良行为发生率更低
- 即插即用式 API 变更:仅需替换模型字符串
劣势:
- Opus 4.8 在最苛刻的精度密集型任务上仍更优
- 在 xhigh effort 设置下,成本可能超过同等质量的 Opus 4.8
- 新的分词器可能导致模型 token 数量增加最多 1.35 倍
- 网络安全能力被刻意压低;请使用 Opus 处理经批准的网络安全工作
- $3/$15 的标准定价将在 2026 年 8 月 31 日之后生效
社区反应
Claude Sonnet 5 — 社区反应
2026年6月30日发布当天,来自Hacker News和X的早期开发者反馈。
所显示的8条反馈的情绪分布
评价褒贬不一:对性价比表示赞赏,但对在全价$3/$15下的竞争力存疑。根据下方公开帖子手动标注;两个Reddit链接为实时讨论帖,未计入统计。
主要帖子链接
- Hacker News讨论帖:news.ycombinator.com/item?id=48736605
- @ClaudeDevs(官方)在X上的帖子:x.com/ClaudeDevs/status/2072018504392601762
- @kimmonismus在X上的帖子:x.com/kimmonismus/status/2072019015577333804
- r/ClaudeAI:reddit.com/r/ClaudeAI
- r/LocalLLaMA:reddit.com/r/LocalLLaMA