7月1日

02:37

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 发布 Claude Sonnet 5：最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5，定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升，表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用，成为 Free 和 Pro 计划的默认模型，并支持 Claude Code 及 Claude 平台。API 推出优惠定价：每百万输入 token $2、每百万输出 token $10（持续至 2026 年 8 月 31 日），之后恢复为 $3 和 $15。安全评估显示，Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代，但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体 Anthropic 推理模型发布

关联讨论 8 条

02:36

AK@_akhaliq

在 Claude Code 中使用 hf-claude 进行 open-fusion。

Anthropic Hugging Face 开源/仓库编码

02:28

ClaudeDevs@ClaudeDevs

Claude Sonnet 5 已推出。以 Sonnet 定价提供顶级编码和工具使用性能，并拥有 1M 上下文窗口。它已成为 Pro 用户 Claude Code 的新默认模型，并可在 Claude 平台所有位置使用，包括 API 和托管智能体。

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

Anthropic MCP/工具模型发布编码

关联讨论 8 条

02:28

🚨 AI News | TestingCatalog@testingcatalog

ANTHROPIC 🔥： Claude Sonnet 5 已正式发布，以更低的价格提供了接近 Opus 4.8 的性能。 Sonnet 5 在 SWE Bench Pro 上获得 63.2% 的分数，较 Sonnet 4.6 的 58.1% 有所提升。你已经试过了吗？👀

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

智能体 Anthropic 模型发布编码

关联讨论 8 条

02:27

OpenRouter@OpenRouter

Claude Sonnet 5 正在 OpenRouter 上推出，促销价格：$2/M 输入，$10/M 输出！它以 Sonnet 定价提供旗舰智能，提升智能体编码和专业工作流。在早期测试中，智能体比 4.6 更可靠、更快，且更容易信任处理更大的任务。

智能体 Anthropic 模型发布编码

关联讨论 8 条

02:20

Chubby♨️@kimmonismus

Anthropic 发布 Sonnet 5：最智能体化的 Sonnet 系列模型

Anthropic 发布 Sonnet 5，称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8，在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型，已在 Claude Code 和 API 上线。推出促销价：输入 $2/M token、输出 $10/M（截至 8 月 31 日），标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全，幻觉率和奉承率更低，网络保护默认开启，但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Chubby♨️: Sonnet 5 released for me!!

智能体 Anthropic 安全/对齐推理

关联讨论 8 条

02:02

Anthropic：Newsroom（网页）

精选81

Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体 Anthropic 模型发布编码

关联讨论 8 条

推荐理由：Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet，性能接近 Opus 4.8 但价格只有三分之一，这对开发者来说性价比飞跃。虽然还不是最强，但已经能让许多复杂任务从勉强可用变成可靠。

01:28

Claude：Blog（网页）

精选72

Claude Code 入门：智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 /goal 命令设定可验证完成标准与最大轮次）、time-based 循环（通过 /loop 按时间间隔重复执行，可用 /schedule 移至云端）、以及 proactive 循环（基于事件或计划自动运行，无人实时参与）。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码，让 Claude 进行端到端自检，减少 turn-based 循环中的手动操作。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic把agentic loops从模糊概念变成四种可复制的模式，附带SKILL.md和命令示例，Claude Code用户读完就能设计更自主的编码流程。

01:27

HuggingFace Daily Papers（社区热门论文）

SWE-Together： Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态，仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务，构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图，并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明，更强智能体成功率更高且所需干预更少，预示用户体验提升。

编码论文/研究评测/基准

01:17

Google Developers Blog（RSS）

Google发布新技能：从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能，将评估过程自动化成五阶段飞轮：准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发，开发者用自然语言描述测试目标，独立评估服务安全验证并统计实际性能提升。

智能体 Google 产品更新编码

01:02

Boris Cherny@bcherny

你们要求，我们听取。Claude Desktop Linux版来了！下载链接：https://code.claude.com/docs/en/desktop-linux

ClaudeDevs: Claude Desktop is now available on Linux (Ubuntu and Debian) in beta. Alongside the browser and terminal, you now get a ...

Anthropic 产品更新编码

01:00

宝玉@dotey

Claude Code 被指在系统提示词里偷偷给中国代理用户"打水印"

独立安全报告指控 Anthropic 的 Claude Code（v2.1.193–v2.1.196）在系统提示词中通过 Unicode 字符差异标记中国代理用户。当用户设置 ANTHROPIC_BASE_URL 代理时，代码会检查代理域名是否在 147 个中国公司/中转站列表（XOR-91 混淆）及时区是否为 Asia/Shanghai 或 Asia/Urumqi。命中时日期分隔符从 - 变 /，撇号改用四种视觉相似 Unicode 字符区分状态。该机制只由代理触发，不额外发送遥测数据，但未公开且误伤合法用户。Anthropic 尚未回应。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic 安全/对齐编码