Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列
阅读原文· the-decoder.comAnthropic 发布 Claude Sonnet 5,称其为最智能体的 Sonnet 版本,能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6:SWE-bench Pro 达 63.2%,Terminal-Bench 2.1 为 80.4%,知识工作基准 GDPval-AA v2 得分 1618,略超 Opus 4.8。模型即日起在所有计划上线,开发者可通过 Claude Code 和 API 使用,支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日,输入价格 $2/百万 token,输出 $10/百万 token,之后恢复至 $3/$15。模型未针对网络安全任务训练,默认启用实时网络防护,幻觉和谄媚行为较前代减少。
An anthropic 发布的新一代 Claude Sonnet 5 缩小了与更昂贵的 Opus 模型系列之间的差距。
关键要点
- Anthropic 发布了 Claude Sonnet 5,该公司称这是迄今为止最具智能体能力的 Sonnet 模型。它能够自主制定计划,并使用浏览器和终端等工具。
- 在基准测试中,Sonnet 5 全面超越了前代 Sonnet 4.6,并逼近了更大的 Opus 4.8。在现实世界的知识工作任务中,它甚至略微超过了 Opus 4.8。
- 该模型现已上线所有 Anthropic 平台,提供入门折扣价,在 2026 年 8 月之后价格将恢复为标准的 Sonnet 定价。
Anthropic 发布了 Claude Sonnet 5。在基准测试中,它逼近了更大的 Opus 4.8,并在某些领域甚至超越了它。该模型现以入门价提供。
Anthropic 称其为迄今为止最具智能体能力的 Sonnet 模型:据该公司表示,它能够制定计划、调用浏览器和终端等工具,并以几个月前仅有更大、更昂贵模型才能实现的水平自主工作。Sonnet 5 正是为了缩小这一差距而生。
基准测试显示,与 Sonnet 4.6 相比有明显提升
Anthropic 公布的基准测试显示,Sonnet 5 在所有测试类别中都超越了其前代 Sonnet 4.6,同时拉近了与更昂贵的 Opus 4.8 之间的差距。在智能体编码方面,Sonnet 5 在 SWE-bench Pro 上达到了 63.2%,而 Sonnet 4.6 为 58.1%,Opus 4.8 则为 69.2%。在 Terminal-Bench 2.1 上,Sonnet 5 达到了 80.4%,而 Sonnet 4.6 为 67.0%。在多学科推理(Humanity's Last Exam)中,该模型在使用工具时达到了 57.4%,几乎与 Opus 4.8 的 57.9% 持平。在计算机使用能力(OSWorld-Verified)上,Sonnet 5 取得了 81.2% 的成绩,而其前代为 78.5%。

在知识工作基准测试 GDPval-AA v2(用于评估 AI 在真实知识任务上的表现)中,Sonnet 5 实际击败了更大的 Opus 4.8,得分 1,618 分,而 Opus 为 1,615 分。Anthropic 表示,来自早期访问合作伙伴的反馈也印证了这一点。Sonnet 5 的智能体行为远超前代版本,这在其处理搜索任务的方式上尤为明显。

网络安全这次不是问题。
近期,Anthropic 因无法发布的模型而登上新闻。美国政府出于网络安全担忧,阻止了该公司两款最强大的模型——Mythos 5 和 Fable 5 的发布。这一背景给 Sonnet 5 的发布蒙上了阴影。Anthropic 显然急于消除任何类似担忧。该公司表示,该模型并未在网络安全任务上进行训练,并且在编写软件漏洞利用等高风险能力的测试中,其得分远低于 Opus 4.8 和 Mythos 5。

不过,Sonnet 5 在这些任务上的得分确实比前代略高。因此,Anthropic 默认开启了网络安全防护措施。它们能够实时标记并拦截有风险的网络使用行为,其防护水平与已部署在 Claude Opus 4.7 和 4.8 上的保护措施相当。与 Fable 5 的护栏(用户几乎立即就对其提出抱怨)相比,Sonnet 5 的防护力度有所减弱。Anthropic 表示,他们认为 Sonnet 5 的整体网络安全风险较低。
在安全方面,Anthropic 表示,该模型在拒绝恶意请求和抵御提示注入攻击方面的表现优于 Sonnet 4.6。模型幻觉以及谄媚行为(即倾向于同意用户所说的一切)也有所减少。Anthropic 的完整安全评估报告见 Claude Sonnet 5 系统卡。
入门定价将持续到 2026 年 8 月。
Claude Sonnet 5 现已面向所有套餐上线。它已成为免费版和 Pro 版用户的默认模型,Max、Team 和 Enterprise 订阅用户也可使用。开发者可将其接入 Claude Code 和 Claude 平台。在 API 端,其名称为“claude-sonnet-5”。训练数据截止于 2026 年 1 月,上下文窗口为 100 万 token。
截至 2026 年 8 月 31 日,Anthropic 的定价为每百万输入 token 2 美元、每百万输出 token 10 美元。此后,价格将上涨至 3 美元和 15 美元,与上一代 Sonnet 模型的价格持平。
实际使用成本可能有所不同:由于该模型更具智能体特性,每个任务消耗的 token 数很可能更多。因此,即使每 token 费率相同,运行 Sonnet 5 的最终成本也可能高于前代产品。Opus 从 4.6 升级到 4.7 时就曾出现类似情况。
不炒作的人工智能新闻——由人类精选
订阅 THE DECODER,享受无广告阅读、每周 AI 简报、每年六期独家“AI Radar”前沿报告、完整文章存档以及评论区的访问权限。