The Decoder：AI News（RSS）

Anthropic 发布 Claude Sonnet 5，号称最智能体版本，逼近 Opus 系列

2026-07-01 02:46·10小时前·Matthias Bastian

AI 摘要

Anthropic 发布 Claude Sonnet 5，称其为最智能体的 Sonnet 版本，能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6：SWE-bench Pro 达 63.2%，Terminal-Bench 2.1 为 80.4%，知识工作基准 GDPval-AA v2 得分 1618，略超 Opus 4.8。模型即日起在所有计划上线，开发者可通过 Claude Code 和 API 使用，支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日，输入价格 $2/百万 token，输出 $10/百万 token，之后恢复至 $3/$15。模型未针对网络安全任务训练，默认启用实时网络防护，幻觉和谄媚行为较前代减少。

AI 翻译 · 中文

An anthropic 发布的新一代 Claude Sonnet 5 缩小了与更昂贵的 Opus 模型系列之间的差距。

Matthias Bastian 查看 Matthias Bastian 的 LinkedIn 个人资料

Jun 30, 2026

Anthropic

关键要点

Anthropic 发布了 Claude Sonnet 5，该公司称这是迄今为止最具智能体能力的 Sonnet 模型。它能够自主制定计划，并使用浏览器和终端等工具。
在基准测试中，Sonnet 5 全面超越了前代 Sonnet 4.6，并逼近了更大的 Opus 4.8。在现实世界的知识工作任务中，它甚至略微超过了 Opus 4.8。
该模型现已上线所有 Anthropic 平台，提供入门折扣价，在 2026 年 8 月之后价格将恢复为标准的 Sonnet 定价。

Anthropic 发布了 Claude Sonnet 5。在基准测试中，它逼近了更大的 Opus 4.8，并在某些领域甚至超越了它。该模型现以入门价提供。

Anthropic 称其为迄今为止最具智能体能力的 Sonnet 模型：据该公司表示，它能够制定计划、调用浏览器和终端等工具，并以几个月前仅有更大、更昂贵模型才能实现的水平自主工作。Sonnet 5 正是为了缩小这一差距而生。

基准测试显示，与 Sonnet 4.6 相比有明显提升

Anthropic 公布的基准测试显示，Sonnet 5 在所有测试类别中都超越了其前代 Sonnet 4.6，同时拉近了与更昂贵的 Opus 4.8 之间的差距。在智能体编码方面，Sonnet 5 在 SWE-bench Pro 上达到了 63.2%，而 Sonnet 4.6 为 58.1%，Opus 4.8 则为 69.2%。在 Terminal-Bench 2.1 上，Sonnet 5 达到了 80.4%，而 Sonnet 4.6 为 67.0%。在多学科推理（Humanity's Last Exam）中，该模型在使用工具时达到了 57.4%，几乎与 Opus 4.8 的 57.9% 持平。在计算机使用能力（OSWorld-Verified）上，Sonnet 5 取得了 81.2% 的成绩，而其前代为 78.5%。

Sonnet 5 在所有测试类别中都超越了其前代 Sonnet 4.6，并逼近了更昂贵的 Opus 4.8。在知识工作（GDPval-AA v2）方面，Sonnet 5 甚至以 1618 分对 1615 分略微超过了 Opus 4.8。 | 图片来源：Anthropic

在知识工作基准测试 GDPval-AA v2（用于评估 AI 在真实知识任务上的表现）中，Sonnet 5 实际击败了更大的 Opus 4.8，得分 1,618 分，而 Opus 为 1,615 分。Anthropic 表示，来自早期访问合作伙伴的反馈也印证了这一点。Sonnet 5 的智能体行为远超前代版本，这在其处理搜索任务的方式上尤为明显。

BrowseComp 上按努力程度和每任务成本划分的智能体搜索性能。Sonnet 5（橙色）在每一级努力程度上都明显优于 Sonnet 4.6（灰色），同时提供了更低的入口成本。Opus 4.8（黄色）在最高努力设置下仍保持领先。| 图片来源：Anthropic

网络安全这次不是问题。

近期，Anthropic 因无法发布的模型而登上新闻。美国政府出于网络安全担忧，阻止了该公司两款最强大的模型——Mythos 5 和 Fable 5 的发布。这一背景给 Sonnet 5 的发布蒙上了阴影。Anthropic 显然急于消除任何类似担忧。该公司表示，该模型并未在网络安全任务上进行训练，并且在编写软件漏洞利用等高风险能力的测试中，其得分远低于 Opus 4.8 和 Mythos 5。

Firefox 147 漏洞利用评估。与其前代 Sonnet 4.6 一样，Sonnet 5 也无法开发出完整可用的漏洞利用程序，但其部分控制率略高，达到 13.2%。Mythos 5 和 Opus 4.8 在这项任务上的能力要强得多。| 图片来源：Anthropic

不过，Sonnet 5 在这些任务上的得分确实比前代略高。因此，Anthropic 默认开启了网络安全防护措施。它们能够实时标记并拦截有风险的网络使用行为，其防护水平与已部署在 Claude Opus 4.7 和 4.8 上的保护措施相当。与 Fable 5 的护栏（用户几乎立即就对其提出抱怨）相比，Sonnet 5 的防护力度有所减弱。Anthropic 表示，他们认为 Sonnet 5 的整体网络安全风险较低。

在安全方面，Anthropic 表示，该模型在拒绝恶意请求和抵御提示注入攻击方面的表现优于 Sonnet 4.6。模型幻觉以及谄媚行为（即倾向于同意用户所说的一切）也有所减少。Anthropic 的完整安全评估报告见 Claude Sonnet 5 系统卡。

入门定价将持续到 2026 年 8 月。

Claude Sonnet 5 现已面向所有套餐上线。它已成为免费版和 Pro 版用户的默认模型，Max、Team 和 Enterprise 订阅用户也可使用。开发者可将其接入 Claude Code 和 Claude 平台。在 API 端，其名称为“claude-sonnet-5”。训练数据截止于 2026 年 1 月，上下文窗口为 100 万 token。

截至 2026 年 8 月 31 日，Anthropic 的定价为每百万输入 token 2 美元、每百万输出 token 10 美元。此后，价格将上涨至 3 美元和 15 美元，与上一代 Sonnet 模型的价格持平。

实际使用成本可能有所不同：由于该模型更具智能体特性，每个任务消耗的 token 数很可能更多。因此，即使每 token 费率相同，运行 Sonnet 5 的最终成本也可能高于前代产品。Opus 从 4.6 升级到 4.7 时就曾出现类似情况。

不炒作的人工智能新闻——由人类精选

订阅 THE DECODER，享受无广告阅读、每周 AI 简报、每年六期独家“AI Radar”前沿报告、完整文章存档以及评论区的访问权限。

来源：Anthropic