# Anthropic 发布 Claude Sonnet 5：中端智能体模型，基准与定价详解

- 来源：MarkTechPost（RSS）
- 作者：Asif Razzaq
- 发布时间：2026-07-01 05:37
- AIHOT 分数：70
- AIHOT 链接：https://aihot.virxact.com/items/cmr16yrji0060slnl99lgia9l
- 原文链接：https://www.marktechpost.com/2026/06/30/anthropic-claude-sonnet-5-vs-sonnet-4-6-vs-opus-4-8-agentic-coding-benchmarks-api-pricing-and-cost-performance-tradeoffs-compared

## AI 摘要

Anthropic 发布 Claude Sonnet 5，定位为最具智能体能力的中端模型，即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%（前代 58.1%），OSWorld-Verified 达 81.2%（前代 78.5%），HLE（带工具）57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token，之后 $3/$15。支持低/中/高/超高四档 effort 级别，低中 effort 下性价比最优。上下文窗口 1M token，采用新 tokenizer，相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 `claude-sonnet-5` 即可调用 API。

## 正文

Anthropic 刚刚发布了 Claude Sonnet 5。他们称其为迄今为止最具智能体能力的 Sonnet 模型。它能制定计划、操控浏览器和终端，并在长时间任务中自主运行。

今天起，Sonnet 5 成为 Free 和 Pro 套餐的默认模型。Max、Team 和 Enterprise 用户可以选择它。它也已登陆 Claude Code 和 Claude 平台。

摘要

Sonnet 5 是 Anthropic 最具智能体能力的中端模型，大大缩小了与 Opus 4.8 之间的差距。

在所有已发布基准测试中都优于 Sonnet 4.6：SWE-bench Pro 63.2%，OSWorld-Verified 81.2%，HLE 57.4%。

运行成本更低：至 8 月 31 日为止，每 MTok 介绍性定价为 $2/$10，之后为 $3/$15；Opus 4.8 为 $5/$25。

在低/中投入水平下性价比最佳；在超高投入下，为获得相近质量，可能比 Opus 4.8 更贵。

比 4.6 更安全，刻意降低了网络能力——对于精度要求高的工作，Opus 仍是首选。

Claude Sonnet 5

Sonnet 处于 Anthropic 产品线的中间位置。它比更便宜的 Haiku 4.5 高，比旗舰产品 Opus 4.8 低。

Sonnet 5 是对 2026 年 2 月发布的 Sonnet 4.6 的升级。Anthropic 将这次发布定义为围绕智能体可靠性，而非某个单项基准测试。

实际应用中，这意味着更长的任务链不会丢失上下文。这意味着当工具调用失败时能更好地自我修正。这意味着在 Claude Code 或 Cowork 中，长时间会话下的行为更加稳定。

该模型开放了投入水平选项：低、中、高和超高。更高的投入会在推理上花费更多 token。这同时提升了质量和成本。

需要指出的是，Sonnet 5 使用了更新的分词器，与 Opus 4.7 引入的相同。同样一段文本对应的 token 数量大约会增加 1.0 到 1.35 倍。

交互式说明

Claude Sonnet 5 — 成本与能力探索器

估算各模型每任务成本，并对比已发布基准测试。所有数据均来自 Anthropic 于 2026 年 6 月 30 日发布的版本。

每任务成本估算器

每任务 $0.00 • $0.00/天 • $0.00/月

Sonnet 5 使用了更新的分词器（与 Opus 4.7 相同）。同样一段文本对应的 token 数量大约会增加 1.0–1.35 倍，因此该系数仅应用于 Sonnet 5。

已发布基准对比

Sonnet 4.6 Sonnet 5 Opus 4.8

在知识工作（GDPval-AA v2）上，Sonnet 5 得分 1,618，略超 Opus 4.8 的 1,615。该基准采用不同量纲，因此此处以备注形式展示而非柱状图。

交互式解说来自 Marktechpost • 图表：Anthropic 发布与系统卡，2026 年 6 月 30 日

基准测试

Anthropic 团队发布了一份基准测试对比表，比较了 Sonnet 5、Sonnet 4.6 和 Opus 4.8。Sonnet 5 在每一项测试类别中都超越了前代。它大幅缩小了与 Opus 4.8 的差距。

在智能体编程（SWE-bench Pro）上，Sonnet 5 得分 63.2%。Sonnet 4.6 得分为 58.1%。Opus 4.8 仍以 69.2% 领先。

在计算机使用（OSWorld-Verified）上，Sonnet 5 取得 81.2%，Sonnet 4.6 为 78.5%。在 Terminal-Bench 2.1 上，它达到 80.4%，后者为 67.0%。

在带工具的人类最后考试上，Sonnet 5 达到 57.4%。这几乎与 Opus 4.8 的 57.9% 持平。

有一个方面 Sonnet 5 略微领先。在 GDPval-AA v2 知识工作基准上，它得分 1,618，而 Opus 4.8 为 1,615。

https://www.anthropic.com/news/claude-sonnet-5

https://www.anthropic.com/news/claude-sonnet-5

努力级别：真正的权衡所在

成本与性能的关系对开发者来说是最重要的部分。Sonnet 5 在每个努力级别上都是对 Sonnet 4.6 的严格改进。最明显的价值出现在低和中等努力级别。

在这些级别上，Sonnet 5 提供的质量是以往 Sonnet 定价无法买到的。Opus 4.8 在高端范围内仍然是准确率的领先者。

由此可以得出一个实用的路由策略：将大多数智能体编程、工具使用和知识工作交给 Sonnet 5；将 Opus 4.8 保留给准确率关键型任务；将 Haiku 4.5 用于高吞吐量、低延迟的调用。

用例：Sonnet 5 的适用场景

早期访问合作伙伴描述了具体的工作流程。他们的报告对应常见的工程任务。

多步软件工程：一位测试者让 Sonnet 5 调查一个 bug。它编写了复现测试、实现了修复，然后确认没有该更改时 bug 会再次出现。它在一个回合中完成了这一流程。

遗留系统调试：另一位合作伙伴将其用于棘手的拉取请求。模型将失败追溯到根本原因。它交付了持久的修复而非症状补丁。

业务流程自动化：Zapier 交给它一个包含两部分的任务。它先更新了 Salesforce 的客户等级，然后向企业联系人发送了一封启动邮件。它端到端地完成了整个任务。

计算机使用智能体：Pace 运行保险工作流程，例如投保单录入和损失报告。它的智能体在团队已经使用的运营系统上执行操作。

数据探索：ClickHouse 智能体查询实时数据并即时生成洞察。更快的推理意味着分析师能更快地获得洞察。

对比表格

指标 / 规格Sonnet 4.6Sonnet 5Opus 4.8

智能体编码 (SWE-bench Pro)58.1%63.2%69.2%

Terminal-Bench 2.167.0%80.4%未报告

计算机使用 (OSWorld-Verified)78.5%81.2%未报告

Humanity’s Last Exam (使用工具)46.8%57.4%57.9%

知识工作 (GDPval-AA v2)未报告1,6181,615

输入价格 ($/MTok)32 首发价，后为 35

输出价格 ($/MTok)1510 首发价，后为 1525

Sonnet 5 的首发定价有效期至 2026 年 8 月 31 日。该日期之后将执行 $3/$15 的标准定价。同时适用标准提示词缓存（缓存读取按输入价格的 0.1 倍计费）以及 Batch API 五折优惠。按模型 token 计算，Sonnet 5 价格低于 GPT-5.5 和 Gemini 3.1 Pro，但高于 Gemini 3.5 Flash。Anthropic 在其发布公告中列出 Sonnet 5 的上下文窗口为 100 万 token。该公司未公布此处其他模型的上下文窗口数据。

编码示例：调用 Sonnet 5

API 调用方式与任何其他 Anthropic 模型相同。只需将模型字符串改为 claude-sonnet-5。

复制代码已复制使用其他浏览器

import anthropic

client = anthropic.Anthropic() # reads ANTHROPIC_API_KEY

message = client.messages.create(
model="claude-sonnet-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Find the race condition in worker.py and ship a tested fix."}
],
)

print(message.content[0].text)

优势与劣势

优势：

在 Anthropic 测试的每个基准类别上均较 Sonnet 4.6 有所提升

在多项评估中接近 Opus 4.8 的质量，但模型 token 单价更低

在 GDPval-AA v2 知识工作基准上略优于 Opus 4.8

相比 Sonnet 4.6，模型幻觉、谄媚行为以及不良行为发生率更低

即插即用式 API 变更：仅需替换模型字符串

劣势：

Opus 4.8 在最苛刻的精度密集型任务上仍更优

在 xhigh effort 设置下，成本可能超过同等质量的 Opus 4.8

新的分词器可能导致模型 token 数量增加最多 1.35 倍

网络安全能力被刻意压低；请使用 Opus 处理经批准的网络安全工作

$3/$15 的标准定价将在 2026 年 8 月 31 日之后生效

社区反应

Claude Sonnet 5 — 社区反应

2026年6月30日发布当天，来自Hacker News和X的早期开发者反馈。

所显示的8条反馈的情绪分布

3

3

2

正面 · 38% 中立/混合 · 38% 负面 · 25%

评价褒贬不一：对性价比表示赞赏，但对在全价$3/$15下的竞争力存疑。根据下方公开帖子手动标注；两个Reddit链接为实时讨论帖，未计入统计。

X@ClaudeDevs（官方）正面

“以Sonnet的价格提供顶级的编码和工具使用性能”——并配备1M上下文窗口。

View post on X →

Hacker News phillipcarter 正面

“对这款主力模型的又一次出色增量更新。”大多数编码场景下使用Sonnet而非Opus。

View comment on HN →

Hacker News mchusma 中立/混合

以$2/$10的发布价远远比全标准定价更有吸引力。

View comment on HN →

X@kimmonismus 正面

“接近Opus 4.8级别的性能，但更便宜。”在推理和工具使用方面有显著提升。

View post on X →

Hacker News andai 负面

“如果你在做难度大的任务，直接用更大的模型。”Opus在前沿领域仍占优势。

View comment on HN →

Hacker News conradkay 负面

“即使在性价比上，似乎也比744B参数的GLM 5.2更差。”

View comment on HN →

Hacker News mag7269 中立

“什么时候能出新的Haiku？”4.5已经快一年了，明显老化了。

View comment on HN →

Hacker News bredren 中立/混合

在低难度和中难度任务中明显看到了价值；但在高难度任务中，相较于Opus 4.8优势不明显。

View comment on HN →

Reddit r/ClaudeAI

发布当天讨论——社区对基准测试、定价和Claude Code的看法。

Open the live thread →

Reddit r/LocalLLaMA

开源模型与Sonnet 5的性价比争论，附有与GLM-5.2和K2.7的对比。

Open the live thread →

Reddit卡片链接至发布当天的实时子版块，因为截至发布时，统一的讨论帖尚未形成。Hacker News和X卡片引用了具体的、可链接的公开帖子。情绪标签为人工编辑判断，非自动评分。

主要帖子链接

Hacker News讨论帖：news.ycombinator.com/item?id=48736605

@ClaudeDevs（官方）在X上的帖子：x.com/ClaudeDevs/status/2072018504392601762

@kimmonismus在X上的帖子：x.com/kimmonismus/status/2072019015577333804

r/ClaudeAI：reddit.com/r/ClaudeAI

r/LocalLLaMA：reddit.com/r/LocalLLaMA

由Marktechpost策划 • 反馈收集于2026年6月30日