Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力
阅读原文· techcrunch.comAnthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。
随着推出智能体能力成为基础模型公司的入场门槛,Anthropic 发布了 Claude Sonnet 5,这是该实验室中端模型的一个更强大、更具智能体能力的版本。
“它可以制定计划、使用浏览器和终端等工具,并以自主运行的方式达到几个月前还需要更大、更昂贵模型才能实现的水平。”Anthropic 在一篇博客文章中表示。
这种表述与 OpenAI 和 Google 对其近期发布的说法如出一辙。OpenAI 的 GPT-5.6 Sol 上周以预览版形式推出,这也是该公司迄今为止最具智能体能力的模型,允许用户将工作拆分成多个子智能体,以完成更长的自主任务。Google 于 5 月发布的 Gemini 3.5 Flash 被定位为从对话式聊天机器人向智能体工具的转变,能够在最少人工干预下规划、构建并迭代实际工作。
Sonnet 5 的定位证实了智能体能力已成为每个价格层级的新基线预期。如今,差异化因素不再是谁能把智能体工作做得最好,而是谁能以更低的成本、更可靠地在无人监督下完成。
Sonnet 5 承诺性能接近 Opus 4.8,但成本大幅降低。从本周二起,Claude Sonnet 5 将成为免费版和 Pro 版的默认模型,并适用于所有订阅计划。
发布时,Sonnet 5 的定价为每百万输入 token 2 美元、每百万输出 token 10 美元,有效期至 8 月 31 日,之后价格将上涨至每百万输入 token 3 美元、每百万输出 token 10 美元。这使得 Sonnet 5 比 Opus 4.8、OpenAI 的 GPT-5.5 以及 Google 的 Gemini 3.1 Pro 更便宜。(它仍然比 Gemini 3.5 Flash 贵。)
据 Anthropic 称,新模型在推理、工具使用、软件编码和知识工作等智能体性能方面,相较于其前代产品——于 2 月发布的 Sonnet 4.6,也有显著提升。
例如,在一个基准测试中,Sonnet 5 在智能体编码任务上得分为 63.2%,而 Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%。在一个知识工作基准测试中,Sonnet 5 的实际表现甚至略优于 Opus 4.8,后者以擅长解决最难的问题而著称,例如做出细微的判断和进行深度研究。
Anthropic 表示:“Opus 4.8 仍然是这些任务中追求更高准确率的首选模型,但 Sonnet 5 为开发者提供了价格更低、质量却比以往选项高得多的方案。在 Sonnet 5 和 Opus 4.8 之间,用户可以调整努力程度,以找到成本与性能之间的最佳平衡。”
根据博文中引用的测试者的反馈,Sonnet 5 在完成复杂任务方面也表现出色,而此前版本的模型往往会在中途停下来,并且能够“在没有被明确要求的情况下自行检查自己的输出”。
Zapier 的高级工程师 Daniel Shepard 在一份声明中表示:“我们交给 Claude Sonnet 5 一个两步任务——更新 Salesforce 账户层级,并向企业联系人发送产品发布通知——它从头到尾完成了。以前这项工作做到一半就会卡住。对于日常自动化来说,它简直是一个无需思考的选择。”
在安全性方面,Sonnet 5 在“不良行为”(如配合滥用和欺骗)的发生率上也低于前代模型,使其在智能体场景中使用更加安全。它更擅长拒绝恶意请求,并能规避提示注入攻击中的劫持企图。同时,它的模型幻觉和谄媚行为的发生率也低于 Sonnet 4.6。
尽管如此,在对齐不良行为方面,它尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。博文中写道:“评估还显示,它执行危险网络安全任务的能力远低于我们当前的 Opus 模型。”
Lovable 联合创始人 Fabian Hedin 在一份声明中表示,Claude Sonnet 5 “能干净利落地、始终如一地拒绝不安全请求。”
Hedin 说:“在 Lovable,我们正在将强大的工具交到数百万构建者手中。一个知道何时该说‘不’的模型,与一个知道如何构建的模型同样重要。”