Anthropic 推出 Claude Sonnet 5，主打低成本智能体能力

2026-07-01 02:00·2天前·Rebecca Bellan

AI 摘要

Anthropic 发布 Claude Sonnet 5，这是其中端模型的最新版本，具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8，但成本更低：即日起至 8 月 31 日，输入每百万 tokens $2，输出每百万 tokens $10，之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%（Opus 4.8 为 69.2%，Sonnet 4.6 为 58.1%），在知识工作基准上略超 Opus 4.8。安全方面，不当行为、幻觉和谄媚率低于 Sonnet 4.6，且更善于拒绝恶意请求和提示词注入攻击。

AI 翻译 · 中文

随着推出智能体能力成为基础模型公司的入场门槛，Anthropic 发布了 Claude Sonnet 5，这是该实验室中端模型的一个更强大、更具智能体能力的版本。

“它可以制定计划、使用浏览器和终端等工具，并以自主运行的方式达到几个月前还需要更大、更昂贵模型才能实现的水平。”Anthropic 在一篇博客文章中表示。

这种表述与 OpenAI 和 Google 对其近期发布的说法如出一辙。OpenAI 的 GPT-5.6 Sol 上周以预览版形式推出，这也是该公司迄今为止最具智能体能力的模型，允许用户将工作拆分成多个子智能体，以完成更长的自主任务。Google 于 5 月发布的 Gemini 3.5 Flash 被定位为从对话式聊天机器人向智能体工具的转变，能够在最少人工干预下规划、构建并迭代实际工作。

Sonnet 5 的定位证实了智能体能力已成为每个价格层级的新基线预期。如今，差异化因素不再是谁能把智能体工作做得最好，而是谁能以更低的成本、更可靠地在无人监督下完成。

Sonnet 5 承诺性能接近 Opus 4.8，但成本大幅降低。从本周二起，Claude Sonnet 5 将成为免费版和 Pro 版的默认模型，并适用于所有订阅计划。

发布时，Sonnet 5 的定价为每百万输入 token 2 美元、每百万输出 token 10 美元，有效期至 8 月 31 日，之后价格将上涨至每百万输入 token 3 美元、每百万输出 token 10 美元。这使得 Sonnet 5 比 Opus 4.8、OpenAI 的 GPT-5.5 以及 Google 的 Gemini 3.1 Pro 更便宜。（它仍然比 Gemini 3.5 Flash 贵。）

据 Anthropic 称，新模型在推理、工具使用、软件编码和知识工作等智能体性能方面，相较于其前代产品——于 2 月发布的 Sonnet 4.6，也有显著提升。

例如，在一个基准测试中，Sonnet 5 在智能体编码任务上得分为 63.2%，而 Opus 4.8 为 69.2%，Sonnet 4.6 为 58.1%。在一个知识工作基准测试中，Sonnet 5 的实际表现甚至略优于 Opus 4.8，后者以擅长解决最难的问题而著称，例如做出细微的判断和进行深度研究。

Anthropic 表示：“Opus 4.8 仍然是这些任务中追求更高准确率的首选模型，但 Sonnet 5 为开发者提供了价格更低、质量却比以往选项高得多的方案。在 Sonnet 5 和 Opus 4.8 之间，用户可以调整努力程度，以找到成本与性能之间的最佳平衡。”

根据博文中引用的测试者的反馈，Sonnet 5 在完成复杂任务方面也表现出色，而此前版本的模型往往会在中途停下来，并且能够“在没有被明确要求的情况下自行检查自己的输出”。

Zapier 的高级工程师 Daniel Shepard 在一份声明中表示：“我们交给 Claude Sonnet 5 一个两步任务——更新 Salesforce 账户层级，并向企业联系人发送产品发布通知——它从头到尾完成了。以前这项工作做到一半就会卡住。对于日常自动化来说，它简直是一个无需思考的选择。”

在安全性方面，Sonnet 5 在“不良行为”（如配合滥用和欺骗）的发生率上也低于前代模型，使其在智能体场景中使用更加安全。它更擅长拒绝恶意请求，并能规避提示注入攻击中的劫持企图。同时，它的模型幻觉和谄媚行为的发生率也低于 Sonnet 4.6。

尽管如此，在对齐不良行为方面，它尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。博文中写道：“评估还显示，它执行危险网络安全任务的能力远低于我们当前的 Opus 模型。”

Lovable 联合创始人 Fabian Hedin 在一份声明中表示，Claude Sonnet 5 “能干净利落地、始终如一地拒绝不安全请求。”

Hedin 说：“在 Lovable，我们正在将强大的工具交到数百万构建者手中。一个知道何时该说‘不’的模型，与一个知道如何构建的模型同样重要。”

TechCrunch：AI（RSS）

73导出 Markdown