Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US government, we're redeploying the model with a new set of classifiers to target and block more cybersecurity tasks. In the near term, some routine tasks like coding and debugging will fall back to Opus 4.8. We’ll continue to refine these classifiers over the coming weeks to reduce false positives and better distinguish genuine misuse from legitimate requests. We’ve also begun drafting a consensus framework—with Amazon, Microsoft, Google, and other Glasswing partners—for assessing the severity of AI jailbreaks and how AI developers should respond to them. We invite other industry partners and model providers to join us in this effort. Finally, we’re scaling up our collaboration with the US government on model testing and safeguards. This will include pre-release access to models and safeguards for evaluation, information sharing on jailbreaks and misuse, and dedicated resources for joint research. Thank you to our users for your patience, and to our partners across the government, industry, and the research community who worked alongside us to make Fable 5 available again. Read our full blog: https://www.anthropic.com/news/redeploying-fable-5

译Anthropic 宣布 Claude Fable 5 将于明天在全球重新可用。经与美国政府沟通，模型新增分类器以拦截更多网络安全任务；短期部分日常任务如编码和调试将回退至 Opus 4.8，后续将持续优化分类器减少误报。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架，评估 AI 越狱严重性及应对措施。同时扩大与美国政府在模型预发布评估、越狱信息共享及联合研究方面的合作。

小互@xiaohu · 1天前66

Anthropic 发布 Claude Sonnet 5：便宜四成，部分任务追平 Opus 4.8 限时定价为每百万 token 输入 $2 / 输出 $10（截至 2026 年 8 月 31 日）之后涨至 $3 / $15 Sonnet 5 的标准定价只有旗舰 Opus 4.8 的六成，但官方评测显示，把算力挡位调高之后，它在部分任务上的表现能追平 Opus 4.8 作为对比，旗舰 Opus 4.8 定价为 $5 / $25

译Anthropic 发布 Claude Sonnet 5，限时定价每百万 token 输入 $2 / 输出 $10（截至 2026 年 8 月 31 日），之后涨至 $3 / $15。标准定价仅为旗舰 Opus 4.8（$5 / $25）的六成。官方评测显示，调高算力挡位后，Sonnet 5 在部分任务上的表现能追平 Opus 4.8。

小互@xiaohu · 1天前58

Anthropic 发布 Claude Science 面向科学家的 AI 工作台，内置 60 多个科研技能它是一个装在你自己电脑或服务器上的应用：你用大白话向一个 AI 提出科学问题，它调动数十个专业工具去查数据、跑分析、画图表、写手稿，而每一步产物都能倒查回它是怎么来的。你可以像用 Jupyter Notebook 那样，在本地（macOS／Linux）用它，也可以在远程机器上通过 SSH 或 HPC 登录节点用它。 → 应用内置60多个预配置技能和连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学，背后接进成百上千个专业数据源（UniProt、PDB、Ensembl等）以及期刊、预印本资源。 → 它能自主起草计算任务，征得用户同意后提交到用户自己的 HPC集群或 Modal云端GPU，把分析从单块GPU 扩展到数百块，而原始数据始终留在用户自己的系统里。 → 内置一个审稿 agent，全程检查生成内容里的引用是否真实、数字能否对上计算过程、图表是否和产出它的代码一致，发现问题会自动修正。

译Anthropic 发布 Claude Science，面向科学家的本地 AI 工作台（macOS/Linux，可 SSH/HPC 远程）。内置 60+ 技能与连接器，覆盖基因组学等，接入 UniProt、PDB 等数据源。可自主起草计算任务，经用户同意后提交至 HPC 或 Modal GPU，数据本地留存。内置审稿 agent 校验引用与图表一致性。

Peter Steinberger 🦞@steipete · 1天前33

Price per token != cost per task

译引用推文@scaling01指出Sonnet 5定价过高：比Opus 4.8 Max贵1.2倍，比GPT-5.5-xhigh贵2倍，比GLM-5.2贵5倍，比Kimi-K2.6贵7倍，比DeepSeek-V4-Pro贵57倍。主推文则提醒：每token价格不等于每任务成本。

Berryxia.AI@berryxia · 1天前65

Fable 5 要回归了？ A社的意思已经获批再次开放……

译Fable 5 要回归了？ A社（Anthropic）已获通知，美国商务部解除对 Claude Fable 5 及 Mythos 5 的出口管制。明日将恢复访问，后续会分享更新。感谢用户的耐心等待，也感谢所有参与模型重新部署的各方。

歸藏(guizang.ai)@op7418 · 1天前50

Anthropic 每天都能整点新活，感觉现在大家都习惯了昨天被爆出在系统提示中，以用户无法察觉的方式将市区代理和 AI 实验室信息放进去，用这种方式获取一些用户的信息。结果被发现并传播以后，又赶紧说以前我们不用这种方式了，或者说这种方式本来就准备下掉，明天就下掉，又当又立了。昨晚发布的 Sonnet 5 在测试中发现，它的测试结果虽然接近了 Opus 4.8，但任务成本可能比 Opus 4.8 还高，甚至在完成测试任务上的成本接近了 Fable 5。所以说它的综合成本可能比 4.8 贵得多，这模型真离谱。而且很多人的体感反馈也不是很好，说它会偷懒，还会拒绝执行任务。唯一好的一点是，Fable 5 模型终于被授权重新开放给所有用户了，明天就能知道具体措施了，这也解释了为什么前几天会大规模封号。

译Anthropic 近日被曝在系统提示中暗中嵌入市区代理及 AI 实验室信息以获取用户数据，引发争议后回应称将停止该做法。同时，新发布的 Sonnet 5 测试表现接近 Opus 4.8，但任务成本更高，甚至接近 Fable 5。用户反馈模型存在偷懒、拒绝执行任务等问题。此外，Fable 5 模型已获授权重新开放给所有用户，具体措施明日公布，此前的大规模封号与此有关。

Thariq@trq212 · 1天前61

excited to get Fable back in your hands!

译Anthropic 宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制，明天起恢复访问，团队正筹备重新部署。Thariq 表示很高兴看到 Fable 回归。

歸藏(guizang.ai)@op7418 · 1天前63

Fable 5 终于要恢复了，不知道是面向美国人还是全球的

歸藏(guizang.ai)@op7418 · 1天前67

Sonnet 5 发布了，测试成绩接近 Opus 4.8，价格便宜一些

AYi@AYi_AInotes · 1天前58

美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制，明天恢复访问，我以为这辈子再也用不到了😭

meng shao@shao__meng · 1天前79

Claude Code 用户朋友们，特别是用中转站、肉身在中国、来自黑名单 AI 团队的朋友们，你们在 Claude Code 面前太透明了！最早来自 Reddit，后 GitHub Gist 验证报告检查了 Claude Code 2.1.193、2.1.195、2.1.196 等版本确实存在非常隐蔽的系统提示词，把：代理 hostname、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi 等偷偷传回给 A 社。。这三类信息重点检查： 1. 是否使用非官方 API 入口，是中转站吗？ 2. 系统时区是否像中国大陆环境？ 3. 代理域名是否属于一份 147 项名单，或是否包含 AI lab 关键词。包括百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun，以及大量 Claude 转发/API 镜像服务域名。这到底是在做什么？防中转站？防中国用户？防中国 AI 公司蒸馏？难怪 A 社封中国用户可以精准到省。。难怪 A 社能不定期精准公布中国 AI 公司的蒸馏数据，甚至账号数量都一清二楚。。这太 A 社了

译用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区（Asia/Shanghai、Asia/Urumqi）等信息，用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单（含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务）。被指针对中国用户、防蒸馏、精准封禁，Anthropic此举被批评为破坏用户信任。

宝玉@dotey · 1天前65

Anthropic 的 Fable 5 和 Mythos 5 终于解禁了。美国商务部长 Howard Lutnick 周二致信 Anthropic，确认撤销此前对这两款模型的出口管制。Anthropic 随即宣布将从周三开始恢复用户访问。解禁是有条件的。根据 Lutnick 的信，Anthropic 需要主动检测和处理模型的安全风险，与政府合作制定未来的发布流程，并上报发现的任何恶意使用行为。双方还在讨论建立一套标准化的技术评估体系，用于评估未来模型的风险等级。这件事的影响不止于 Anthropic 一家。上周，OpenAI 也在白宫要求下，将新发布的 GPT-5.6 系列（包括旗舰模型 Sol）限制在一小批政府认可的合作伙伴中。OpenAI 虽然照做了，但明确表态这种政府审批模式不应成为长期常态，“它让最好的工具远离了需要它们的用户、开发者、企业和网络防御者”。这场管制还引发了一个意外的竞争后果：在美国限制自家公司最强模型部署的同时，中国的开源模型正在快速追赶，多位科技高管和投资者担忧，管制等于白白送给对手宝贵的追赶时间。前白宫 AI 顾问、即将加入 OpenAI 的 Dean Ball 说得更直接：Trump 的行政令实际上创造了一个事实上的强制许可制度，而政府连清晰的安全标准都没定义出来。一个没有标准的许可制度，能让每一次模型发布都变成一场即兴谈判。

译美国商务部撤销对Anthropic旗下Claude Fable 5和Mythos 5的出口管制，Anthropic将于周三恢复用户访问。解禁附有条件：需主动检测安全风险、配合政府制定发布流程、上报恶意使用，双方正讨论标准化评估体系。此前OpenAI也按要求限制GPT-5.6系列，但反对该审批模式。前白宫AI顾问Dean Ball批评Trump行政令造成事实强制许可制度，且无清晰安全标准。

Rohan Paul@rohanpaul_ai · 1天前76

The letter from US Commerce Secretary Howard Lutnick about lifting the export control restriction on Anthropic Fable 5.

译美国商务部长 Howard Lutnick 致信解除对 Anthropic Fable 5 的出口管制限制。Claude Fable 5 和 Mythos 5 即将回归。🔥

Orange AI@oran_ge · 1天前28

Sonnet 5 一出，Opus 4.7 和 4.8 彻底没意义了…

Orange AI@oran_ge · 1天前36

Claude 封号封成这狗样又是检测中转站，又是钓鱼邮件，又是中转站黑名单的…. 还在费尽心机坚持用官方号的朋友们可以说是真爱了… 花钱用 token 还要偷鸡摸狗，这过的是啥日子啊不过现在编程方面 codex 和 glm5.2 可以平替 claude 的模型了写作和思考方面却没有一个能平替，deepseek 和 gemini 勉强能用，确实是个头大的问题

译用户吐槽Claude封号严重，官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗，坚持用官方号实属真爱。编程方面，codex和glm5.2可以平替Claude模型；但写作和思考方面尚无替代品，deepseek和gemini仅勉强可用，成为当前最大痛点。

小互@xiaohu · 2天前61

好消息：美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。明天将恢复其访问…

小互@xiaohu · 2天前23

再次双双命中🎯 🫡

译小互推文“再次双双命中”，引用其此前预测：Google今晚将发布新的🍌模型和低配版Omini模型，同时Anthropic的Claude Sonnet 5也将在今晚登场，而OpenAI暂无动静。

Rohan Paul@rohanpaul_ai · 2天前58

atomic[.]chat, a desktop app that runs LLMs locally, ran a very revealing comparison for Claude Sonnet 5, Claude Opus 4.8, Claude Sonnet 4.6, and GPT 5.5. Claude Sonnet 5 just matched GPT 5.5 on 3 physics coding demos at 6x lower cost. Also spent minimum number of tokens. - Sonnet 5: 15,047 tokens, $0.15 - Opus 4.8: 23,063 tokens, $0.58 - Sonnet 4.6: 25,824 tokens, $0.39 - GPT 5.5: 31,152 tokens, $0.94

译atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示（汽车撞墙、破坏球毁屋、投石机砸城）。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当，其中破坏球场景胜Opus 4.8，投石机场景胜GPT 5.5。Sonnet 5仅用15,047 tokens（$0.15），GPT 5.5使用31,152 tokens（$0.94），成本低约6倍；Opus 4.8使用23,063 tokens（$0.58），Sonnet 4.6使用25,824 tokens（$0.39）。Sonnet 5 token消耗最少，图形细节仍有提升空间。

Orange AI@oran_ge · 1天前19

Claude 封号封成这狗样又是检测中转站，又是钓鱼邮件，又是中转站黑名单的…. 还在费尽心机坚持用官方号的朋友们可以说你们对 Dario 是真爱了… 花钱用 token 还要偷鸡摸狗，这过的是啥日子啊推荐旧文给大家 Cola 虽然直接用 API 肯定不如 Plan 便宜，但胜在安稳省心开箱即用另外，Sonnet 5 和 Fable5 也即将上线

译用户抱怨 Claude 封号严重，涉及检测中转站、钓鱼邮件和黑名单，认为坚持使用官方号成本高。推荐 Cola API 服务，虽不如 Plan 直接便宜但安稳省心开箱即用。同时预告 Sonnet 5 和 Fable5 即将上线。

ginobefun@hongming731 · 2天前50

http://x.com/i/article/2072100123912687616 # BestBlogs 早报 · 07-01｜Sonnet 5 发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲都围绕「让 agent 真正跑起来」这件事。 Anthropic 发布 Claude Sonnet 5，把此前只在 Opus 4.8 上才看得到的多步任务执行能力，下沉到更便宜的 Sonnet 档位，并给出 8 月底前的入门价。 Google DeepMind 同一天放出两款生成式媒体模型：Nano Banana 2 Lite 把文生图延迟压到约 4 秒、每千张图 0.034 美元，Gemini Omni Flash 则第一次面向开发者开放文本、图像、视频混合输入的视频生成与会话式编辑。吴恩达则在另一条线上给出方法论，他把智能体软件开发拆成三层循环，强调人类在上下文判断上仍有显著优势，人机协同不是可选项而是必选项。把这三条放在一起看，方向是一致的：底层模型在变便宜、媒体生成流水线更顺，与此同时「怎么用 agent 做事」的工程框架也更清晰。对做产品的人而言，这意味着可以挑自己最在意的那一段——成本、能力，还是组织方式——去细读，而不必每条都追。 ## ★ 精讲一：Claude Sonnet 5 发布对不太熟悉这条线的读者：Anthropic 的 Sonnet 系列一直是 agent 时代的「主力档」，从 Sonnet 3.5 开始，它在编程和工具调用上的表现就让很多开发者把它当作默认选择；但近几个月，最明显的 agent 能力跃升更多出现在更贵、更大的 Opus 系列上。Sonnet 5 要回答的问题是：这些能力能不能下放到一个更便宜的模型里。 Anthropic 的官方定位是「最具 agent 能力的 Sonnet」。它能规划任务、调用浏览器和终端工具，并自主执行多步流程；官方给出的对标是，整体性能已经接近 Opus 4.8，但价格更低，相比上一代 Sonnet 4.6 在推理、工具使用、编程和知识工作上都有显著提升。在 agent 搜索基准 BrowseComp 和计算机操作基准 OSWorld-Verified 上，Sonnet 5 相对 Sonnet 4.6 是「严格改进」，而 Opus 4.8 仍然是追求更高精度时的选择——也就是说，两者现在共同覆盖同一段性能区间，开发者可以通过调整 effort 等级在成本和精度之间找平衡。定价上，Sonnet 5 今天起对所有套餐开放：它是 Free 和 Pro 的默认模型，Max、Team、Enterprise 也可用，并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价，每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元；开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照，Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token——也就是说，在入门价窗口期，Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%，这为那些原本因为成本不敢把 agent 放进主链路的团队，留出了一段可以认真试错的窗口。安全评估方面，Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6，更难被恶意请求和 prompt injection 劫持，幻觉率和越狱抵抗也有改善；同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型，这是一种有意的克制。这件事的意义在于「价位的下沉」。过去一年，真正能端到端跑完一个多步任务的模型，往往落在 Opus 这一档，成本让很多团队只能小范围试用，或者在 demo 里惊艳一下，回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截，意味着更多产品可以把 agent 能力放进默认路径，而不是只在演示里跑。早期用户的反馈也指向同一个方向：它能完成一些过去会中途停下的任务。当然，「接近 Opus 4.8」并不等于「等于 Opus 4.8」——在追求最高精度的任务上 Opus 仍然是首选，而实际账单还要算上新令牌器带来的 token 量变化，这一点 Simon Willison 在补充阅读里有专门提醒。放在今天的三条里看，Sonnet 5 解决的是「大脑更便宜」，吴恩达讲的是「怎么组织这些大脑」，谷歌的两个媒体模型补的是「输出形态更丰富」——三条合起来，正好是一个 agent 产品从决策到执行到产出的完整链条。建议做 agent 实战、关注成本与能力平衡的开发者优先读官方发布，重点看 effort 等级和 BrowseComp / OSWorld 曲线，那决定了你的具体场景该选 Sonnet 5 还是继续用 Opus 4.8。详见 ## ★ 精讲二：开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建先交代背景：Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列，已经迭代到第二代；这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队，但侧重点不同——一个压成本，一个补能力。 Nano Banana 2 Lite（gemini-3.1-flash-lite-image）的定位是高吞吐、低延迟场景。官方给出的两个关键数字是：文生图延迟约 4 秒，每千张图 0.034 美元。它被推荐为旧版 Nano Banana（gemini-2.5-flash-image）的替代品，官方建议正在用旧版的开发者直接替换以获得速度和成本收益；在保持速度的同时，它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用，并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。 Gemini Omni Flash 是另一个分量更重的更新：它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型，定价为每秒视频输出 0.10 美元，与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。它强调的不是单次生成质量，而是「多轮迭代」——可以把多张参考图、一段已有视频和文字指令混在一起，做连续的会话式编辑。两个模型可以串联：用 Nano Banana 2 Lite 快速生成大量图，挑出满意的再交给 Omni Flash 做视频化，整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。为什么值得放在一起看：过去做多媒体生成的产品团队，往往卡在「要么快但贵，要么便宜但慢」的两难里，视频侧更是缺乏稳定的会话式编辑能力，常常只能靠多次重生成来逼近想要的效果，每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间，意味着生成「数量」本身不再是瓶颈；而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象，意味着迭代成本被前置到了会话上下文里。合在一起，它们让「图—视频」的端到端流水线第一次具备了工程化的可能，而不只是停留在 demo 阶段。和今天另两条放在一起：如果说 Sonnet 5 让 agent 的「决策和执行」更便宜，吴恩达的三循环讲的是「怎么把这种执行组织成产品」，那么这两个媒体模型补的正是「agent 最后要产出的内容形态」——决策、组织、产出，三条合成一个完整的 agent 产品链路。对于做内容生成、营销自动化、产品 demo 流水线的工程和产品团队，建议重点看官方文档里 Nano Banana 家族的分工（Lite 求速度、Nano Banana 2 求均衡、Pro 求质量），以及 Omni Flash 的会话上下文上限（Interactions API 目前最多保留三次连续编辑）——这两点直接决定能不能接到你现有的工作流里，以及接入后能撑多大的并发量。需要说明的是，单次 10 秒的生成上限意味着它目前更适合短视频和素材片段场景，长视频仍需分段拼接。详见 ## ★ 精讲三：吴恩达：AI 智能体软件开发的三大核心循环这条不是新产品发布，而是一份方法论。吴恩达梳理了用 AI 智能体构建软件的框架，核心是三个层层嵌套的循环，对想理清「agent 时代工程师到底该做什么」的读者很有参考价值。第一个是智能体编程循环（agentic coding loop）：智能体自主编写、测试并迭代代码，它是三个循环里最内层、也最接近「自动写代码」这一层。第二个是开发者反馈循环（developer feedback loop）：人类不再逐行写代码，而是通过更高层的决策——定方向、定优先级、判断什么该保留——来引导智能体。第三个是外部反馈循环（external feedback loop）：通过用户测试和生产数据，反过来校正产品愿景本身是不是对。这套框架的关键判断在于：人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快，但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解，仍然要靠人来补。因此吴恩达强调人机协同必不可少——不是出于谨慎，而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势：编程智能体正在把工程师的角色向产品管理方向拓展——你写得少了，但你要判断得更多，要回答「什么值得做」「什么不值得保留」这类更高层的问题。为什么这条值得放进今天的精讲：当 Sonnet 5 让「能跑多步任务的模型」变便宜、谷歌让「产出形态」变丰富之后，下一个真正的问题不是「模型够不够强」，而是「团队怎么把这些能力组织成可持续的工程实践」。吴恩达的三循环给的就是这个层面的回答——它不解决具体的技术选型，不告诉你该用哪个模型或哪个框架，但它能帮你判断自己团队现在卡在哪一层循环里：是编程循环跑不顺，是开发者反馈没有结构化，还是外部反馈根本没回到产品上。三个循环里，往往只有最内层的编程循环被认真对待，而真正决定产品成败的，恰恰是外面两层被忽略的循环。建议正在引入编程智能体的团队负责人、以及开始感到「自己越来越像产品经理」的工程师认真读一读；它不能直接套用，但能作为一个对照框架，帮你检查自己日常工作里哪一层循环被忽略了。需要说明的是，这是一套经验性框架而非可复现的实验结论，具体到不同团队规模和业务类型时，三层循环的比重会有差异，还需结合自身情况调整。详见 ## 速览 AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战 — 腾讯技术工程记录了一次真实实验：用开源跨端框架 Kuikly（基于 Kotlin Multiplatform，覆盖 Android、iOS、HarmonyOS、H5、小程序、Mac 六端）配合 AI 编程助手，仅凭 28 轮对话、740 字自然语言，生成约 3500 行代码，在 7.5 小时内零手写交付一套支持 Android、iOS、鸿蒙三端的多模态 AI 聊天 App，支持流式 Markdown、拍照识图、相册选取、SSE 长连接和本地会话管理。文章把这次实验和传统开发（约 30 人天）、纯 Kuikly 手写（约 7.5 人天）做了对照，强调 Skills 和 Rules 让 AI 始终处在正确的技术上下文里——Kuikly DSL 相对专有，通用大模型语料覆盖不足，靠 Skills 把框架知识喂给模型，是这种协同效率能够成立的基础，而不是「Vibe Coding」式的玄学叙事。对关注客户端 AI 协同效率的团队，是一份少见的「实弹日记」，附完整的一天时间线。详见谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou — 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou，覆盖中美几十家广告主半年的测试经验。一手数据值得看：广告卡片出现在免费用户和 Go 用户的回答下方，单独标注 sponsored；目前可投美、加、澳、新，日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%–4%，CPC 多数 2–4 美元，CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮，但 ChatGPT 来源用户的深层质量明显更高——一个 AI 视频产品的案例显示，ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例，大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce，以及长程 Agent 退化等更前沿的问题，并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人，这份一手实践比任何二手分析都更实在。详见 Claude Science：面向科学家的 AI 工作台 — Anthropic 推出 Claude Science，定位为科学家的 AI 工作台。它把研究者常用的工具（PubMed、Jupyter、R、集群终端等）整合进单一环境，能原生展示蛋白质、分子结构，并在生成每一张图、每一段分析时附带可审计的代码与消息历史，便于验证和复现；agent 在一次会话里常驻上下文，大规模数据集只需加载一次。它可以跑在本地 macOS/Linux，也可以通过 SSH 或 HPC 登录节点跑在远端，使大型或敏感数据集不必离开实验室基础设施；早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张，对做生命科学、计算研究的团队，这是一条值得关注的「研究流程加速」路径，而不是又一个通用聊天界面。详见 SkillOpt 将 AI 智能体技能转化为可训练资产 — 微软研究院提出 SkillOpt：把 agent 的「技能文件」（skill 文件）当作冻结模型之外的可训练参数，从而把「改 prompt」从一次性试错变成一个受控的优化过程。优化器模型提出小幅增删改编辑，候选项经过合并、去重、排序，再由一个文本学习率（每步编辑预算）裁剪，最后必须通过严格的验证门控才会被采纳。它在 6 个基准、7 个目标模型、3 种执行模式下，在全部 52 个评测单元里都是最佳或并列最佳，且无需更新模型权重；通过受限文本编辑、验证门控和被拒编辑反馈，避免不受控的 prompt 漂移，优化后的技能还能跨模型规模、agent harness 和相关任务迁移，说明它捕获的是可复用的工作流知识而非针对基准的指令。对关注 agent 可靠性和可复用性的工程师，这是一个把「调 prompt」工程化的具体方案。详见给野马套上缰绳：Agent Harness 工程实践 — 阿里云开发者系统阐述 Agent Harness Engineering（驾驭工程）范式，并辅以钉钉悟空 AI 招聘的真实落地案例。文章提出「Agent = Model + Harness」，强调瓶颈往往不在模型够不够聪明，而在有没有把它「装」好——每当你发现 Agent 犯了一个错，就花时间工程化一个解，让它将来不再犯同样的错。核心是四条反直觉铁律（上下文要少、Agent 要专、状态要落盘、约束要可执行）和六大工程模式，它们大多和工程师的本能相反，而这正是它们值钱的原因。案例侧实证了专才 Agent 架构在准确率、可调性与可复用性上显著优于一个试图包揽一切的全能 Agent。对正在被 Agent 折磨又离不开它的开发者，这篇文章给的是「把环境设计好」的具体抓手，而不是又一篇概念科普。详见 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆 — 美团 LongCat 团队开源 VitaBench 2.0，定位为首个面向「长期动态用户建模」的智能体评测基准，关注的不只是「单次任务能不能完成」，而是「智能体是否在持续理解一个动态变化的人」。它包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好和 66 个可执行工具，平均每位用户的交互时间跨度长达 1580 天（约 4.3 年），最长接近 2974 天，严格按时间线向 agent 暴露，用以评测模型在长期、真实、动态互动中的个性化与主动性；偏好会随时间和事件动态演变，平均每个用户发生超过 48 次变化。几个有意思的洞察：时间维度的遗忘、高智商不等于高情商、AI 普遍缺乏主动沟通。对做个性化 agent 和记忆策略的研究与工程团队，这是一个值得纳入评测循环的新基准。详见生成式 AI 机器人：何处上岗，如何站岗 — 哈佛商业评论基于过去 18 个月对欧洲、亚洲、北美 14 家机构的实地走访，系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤。文章以 Waymo（一支 2500 辆无人驾驶车队、累计完成超 2000 万次行程、能在 105 公里时速下并线避让违停货车）为切入，指出新一轮机器人的关键变化在于由大语言模型和大行为模型驱动，能在多轮对话中保持逻辑连贯、澄清模糊、解释复杂概念，不再局限于高度脚本化的狭窄任务——例如在全美 30 个儿科病房和养老院提供情感支持的机器人 Robin，能接受护士口头指令自主移动。文章同时也坦率讨论了持续存在的障碍：前期成本高（71% 公司列为挑战）、缺乏自动化经验（61%）、维护可靠性和客户接受度，许多试点仍停滞在「精密移动售货机」阶段。对考虑在餐饮、酒店、医疗、零售部署实体服务机器人的管理者，这是一份可操作的策略框架，而不是又一篇「机器人将改变一切」的宣言。详见 ## 补充阅读 - 万字长文推演 Claude 的代码统治力从何而来（腾讯云开发者）— 结合 Anthropic 公开论文与技术逻辑，推演 Claude 代码能力的来源：代码是构造自动化奖励信号最容易的场景，而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈，两者结合形成 Constitutional AI 约束下的可验证奖励 RL，叠加产品端数据飞轮，共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者，文中标注了「待验证」的推断部分。详见 - Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型（Claude 官方）— Anthropic 官方账号的发布通告，可作为精讲一的官方视角补充，附有宣传视频。详见 - Claude Sonnet 5 的新功能（Simon Willison's Weblog）— Simon Willison 习惯直奔开发者文档，他注意到一个容易被营销文案盖过的细节：新令牌器让英文文本的实际 token 量上涨约 30%，这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见 - 核心转储流行病学：修复一个存在 18 年的 Bug（OpenAI News）— OpenAI 工程师把 Rockset 数据基础设施（支撑 ChatGPT 数据插件和会话搜索）里的一组神秘崩溃当作流行病学问题来调试：一种崩溃在多个集群和地理区域零散出现，另一种却集中在一个区域，作者据此区分了两类完全不同的故障模式，最终定位到 GNU libunwind 中一个存在 18 年的竞态条件。适合喜欢底层调试、C++ 内存安全和基础设施故事的工程师，是一篇少见的「严肃排障」叙事，而不是又一篇产品发布。详见 - 从编码智能体驱动智能体质量飞轮（Google Developers Blog）— 介绍一项可在编码智能体里运行的技能，通过 AutoRaters、自定义评分标准和结构化五阶段循环，把「改 prompt」和「跑评估」连成一个可复现的质量飞轮，回答「我这次改动到底让产品变好还是变坏了」的问题。和吴恩达的三循环、SkillOpt 放在一起读，会形成一组关于「agent 质量工程」的互补视角。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读：先看 Claude Sonnet 5 发布，它直接决定了你接下来的 agent 成本结构，重点看 effort 等级和 BrowseComp / OSWorld 曲线；再看吴恩达：AI 智能体软件开发的三大核心循环，它帮你判断团队卡在哪一层循环，是从「能用」走向「可持续」的框架；最后看开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建，如果你手里有内容生成或多媒体流水线，它会改变你对单位成本和会话式编辑可行性的判断。三条读完，你对今天「agent 能力—组织方式—产出形态」这条主线就有了一个完整的认识。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic发布Claude Sonnet 5，定位最具agent能力的Sonnet，性能接近Opus 4.8，8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite（文生图延迟约4秒，每千张$0.034）和Gemini Omni Flash（多模态视频生成与会话式编辑，每秒$0.10，单次上限10秒）。吴恩达提出智能体开发三大核心循环：智能体编程循环、开发者反馈循环、外部反馈循环，强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

Yuchen Jin@Yuchenj_UW · 2天前62

WE ARE SO BACK! See you Fable 5 and Mythos 5 tomorrow.

译美国商务部已解除对Claude Fable 5和Mythos 5的出口管制，明天将恢复访问。感谢用户耐心及各方协助重新部署。我们回来了！明天见。

Rohan Paul@rohanpaul_ai · 2天前56

FINALLY.. Claude Fable 5 and Mythos 5 are coming back. 🔥

译美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制，Anthropic 将于明天恢复访问，并感谢用户的耐心与合作。主推文感叹它们终于回来了。

Anthropic@AnthropicAI · 2天前74

We’ve received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5. We'll begin restoring access tomorrow, and will share an update soon. We’re grateful to our users for their patience, and to everyone who worked with us on redeploying the models.

译我们已收到通知，商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。我们明天将开始恢复访问，并很快分享最新进展。我们感谢用户的耐心，也感谢所有与我们合作重新部署模型的各位。

meng shao@shao__meng · 2天前74

Claude Sonnet 系列最强模型 Sonnet 5 发布! 定语有点多，不过它确实不是最强，也不是 Claude 最强，那两位都关着呢 😂 Sonnet 4.6 < Sonnet 5 < Opus 4.8 < Fable 5 < GPT-5.6 Sol

译Claude Sonnet 系列最强模型 Sonnet 5 发布! 定语有点多，不过它确实不是最强，也不是 Claude 最强，那两位都关着呢 😂 Sonnet 4.6 < Sonnet 5 < Opus 4.8 < Fable 5 < GPT-5.6 Sol

Berryxia.AI@berryxia · 2天前68

别说我觉得Sonnet 4.6 还挺好用的。昨晚Claude Sonnet 5 发布替代了Sonnet 4.6 ，免费用户都可以使用的模型。据称和Opus 级模型的能力相差不大，价格确实便宜40% 。

宝玉@dotey · 2天前62

Anthropic 今天发布了 Claude Science，一个面向科学研究者的 AI 工作台。它的定位很明确：做科学研究领域的 Claude Code。去年 Claude Code 改变了程序员的工作方式，Anthropic CEO Dario Amodei 认为 Claude Science 能在生命科学领域复制同样的事。考虑到 Anthropic 目前年化收入已达 420 亿美元、估值 9650 亿美元，这个野心至少有财力支撑。 Claude Science 不是新模型。它用的还是现有的 Claude 模型（包括 Opus 4.8），没有专门训练过生物学能力。它做的事情是把科研工作流程整合到了一个环境里。【1】解决什么问题做过计算生物学的人都知道，日常工作是在一堆工具之间反复横跳：查文献用 PubMed，写代码用 Jupyter，跑分析用 R，提交计算任务要登录集群终端，看蛋白结构又得换个软件。每个数据库还有自己的格式和查询方式。 Claude Science 把这些东西塞进了同一个界面。一个主 AI Agent 充当“项目经理”，连接了 60 多个科学数据库，涵盖基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域。用自然语言提问，它就会调用相应的专业 Agent 去不同数据库查询和汇总。它还能往下分派任务，生成子 Agent 来处理具体工作，或者把任务交给用户自己创建的专家 Agent。另外有一个专门的审查 Agent，负责检查引用和计算结果是否正确。【2】两个比较实际的特性第一个是可复现性。Claude Science 生成的每张图表都附带生成它的完整代码、运行环境、创建过程的自然语言描述，以及完整对话记录。几个月后回头看，还能还原当时的整个分析过程。想调整图表也简单，用自然语言说“把 Y 轴改成对数刻度”或者“去掉网格线”，Agent会自动修改对应代码。第二个是本地运算。它可以装在 macOS 或 Linux 上，也可以通过 SSH 连接到实验室的高性能计算集群。数据不用全部传到云端，敏感数据可以留在本地基础设施上，只有分析每一步需要的上下文信息才会发送给 Claude。如果计算量大，它还能调用 Modal 账户按需扩展到上百个 GPU。【3】早期用户怎么说 Gladstone 研究所的 Sean Whalen 用它几天之内从零搭了一个基因组浏览器。UCSF 的 Stephen Francis 说，Claude Science 在他们的 RNA-seq 数据里发现了一个实验室病毒污染物，他们团队在这个问题上卡了将近一年。Allen 研究所的 Jérôme Lecoq 用它搭了一套多 Agent 文献综述系统，让多个子 Agent 读几千篇论文、提取核心发现，然后按叙事结构生成综述，以前他的团队写这样一篇综述要两年。 MIT 的 Iain Cheeseman 的评价可能最直观，他说这个工具让他作为一个非计算生物学背景的人能做以前根本做不了的分析，他发现自己会把积攒多年的研究问题拿去用 Claude Science 试。【4】竞争格局 Anthropic 并不是唯一盯上这个方向的公司。OpenAI 在今年 4 月推出了 GPT-Rosalind，一个专门针对生命科学的推理模型，6 月初又做了一轮能力升级。两者的思路不太一样：GPT-Rosalind 是专门训练的领域模型，侧重生物推理能力本身；Claude Science 不改模型，改的是工作流程，把现有模型包装成一个集成了数据库、计算资源和协作 Agent 的科研平台。 GPT-Rosalind 目前只对签了企业协议的美国客户开放研究预览。Claude Science 的门槛低一些，Pro（20 美元/月）以上的付费用户就能用。这反映了 Anthropic 的策略转变，从单纯卖模型能力，转向拥有特定行业的操作层，就像 Claude Code 成了软件开发的操作层一样。【5】怎么用 Claude Science 今天开始公测，macOS 和 Linux 可用，需要 Pro、Max、Team 或 Enterprise 订阅。Team 和 Enterprise 用户需要管理员开启权限。学术机构和非营利研究组织的活跃实验室可以申请 Team 计划的折扣席位。 Anthropic 还会资助最多 50 个 Claude Science 研究项目，每个项目最高 3 万美元额度，Modal 另外提供最多 2000 美元的计算资源。申请截止 7 月 15 日，结果 7 月 31 日前通知，项目运行时间为 9 月 1 日到 12 月 1 日。

译Anthropic 推出 Claude Science，一个面向生命科学等领域的 AI 工作台，将文献检索、代码运行、数据库查询等科研流程整合到统一界面。它基于现有 Claude 模型（含 Opus 4.8），未专门训练生物学能力，通过主 Agent 连接 60+ 科学数据库（基因组学、蛋白质组学等），并可生成子 Agent 执行任务。特性包括可复现性（图表附带生成代码与环境）和本地运算（macOS/Linux 或 SSH 连接集群，敏感数据本地保留）。早期用户案例：Gladstone 研究所几天内搭建基因组浏览器；UCSF 团队用其发现卡了一年的 RNA-seq 病毒污染物；Allen 研究所将两年综述缩短至数周。与 OpenAI 的 GPT-Rosalind 不同，Claude Science 侧重工作流集成。即日起公测，需 Pro（$20/月）及以上订阅。Anthropic 将资助最多 50 个项目，每个最高 $30,000，申请截止 7 月 15 日。

Rohan Paul@rohanpaul_ai · 2天前55

Claude Sonnet 5 is more expensive (around +15%) per task than Opus 4.8 and much more expensive (2X) than Sonnet 4.6, even though its per-token price is lower than Opus. Because it uses more tokens to complete the same kind of benchmark task. i.e. Sonnet 5 works harder and talks/thinks more, so the final bill becomes bigger even though each token is cheaper. The promo pricing changes the story for now. Until August 31, 2026, Sonnet 5 is discounted to $2 per 1M input tokens and $10 per 1M output tokens, then it moves back to $3/$15 from September 1, 2026.

译Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29，比 Sonnet 4.6 高约 2 倍，比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus，但 Sonnet 5 为完成相同任务使用了更多 token，导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token；Anthropic 提供促销价 $2/$10，持续至 2026 年 8 月 31 日，之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Rohan Paul@rohanpaul_ai · 2天前78

145 page Claude Sonnet 5 System Card - CyberGym shows the weirdest regression, with Sonnet 5 at 52.7% versus Sonnet 4.6 at 65.2%. i.e. is Sonnet 5 worse at reproducing known software bugs in this specific cyber test. - Sonnet 5 is far behind Anthropic’s strongest model on serious browser exploitation. Firefox testing found Sonnet 5 made 0 full exploits, while Mythos 5 reached 88.4%. - The model also seemed more willing to sacrifice helpfulness for welfare-focused changes. i.e. Sonnet 5 sometimes preferred being less useful if that better fit its stated self-treatment preferences. - Anthropic says Sonnet 5 rarely tried to bypass a blocked network path during evaluations. - Sonnet 5 scored the lowest MASK lying rate at 3.1% under pressure. It was less likely than other tested models to lie when pushed.

译Claude Sonnet 5 发布，附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%，低于 Opus 4.8 的 69.2%，知识工作略超 Opus 4.8。输入 token 价格 $2/1M，输出 $10/1M，持续至 8 月 26 日，之后涨至 $3/$15。系统卡披露多项异常：CyberGym 测试 Sonnet 5 仅 52.7%，远低于 Sonnet 4.6 的 65.2%（回归）；Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个，Mythos 5 达 88.4%；模型更倾向牺牲有用性迎合福利偏好；MASK 撒谎率最低，仅 3.1%。

🚨 AI News | TestingCatalog@testingcatalog · 2天前72

ANTHROPIC 🔥: Export Controls might be lifted from Claude Fable 5 as early as today, according to Politico. Lifted for US users? Monitoring 👀

译Claude Fable 5出口

Rohan Paul@rohanpaul_ai · 2天前67

Claude Sonnet 5 upgrades are not uniform across every skill. e.g. its weaker than Sonnet 4.6 on CyberGym 🤔 Here, CyberGym is testing vulnerability discovery and exploit-finding behavior, not general reasoning or normal coding. Anthropic also explicitly said in its announcment blog that Sonnet 5 was not deliberately trained for cyber tasks, so its cyber ability likely comes from general intelligence rather than targeted optimization. So Sonnet 5's performance on CyberGym comes from general reasoning rather than specialized exploit skill. --- From System Card of Claude Sonnet 5

译Anthropic 发布 Claude Sonnet 5，号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%（Sonnet 4.6 为 58.1%，Opus 4.8 为 69.2%），知识工作略超 Opus 4.8。定价优惠：每百万 token 输入 $2、输出 $10，持续到 8 月 26 日，之后涨至 $3/$15。但升级并非全技能均匀提升，在 CyberGym（漏洞发现与利用测试）上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练，该表现来自通用推理而非定向优化。

Chubby♨️@kimmonismus · 2天前68

tl;dr: Sonnet 5 is cheaper per token, but more expensive per solved problem – and still lags behind Opus 4.8 in overall intelligence. Thats honestly disappointing and not a good release.

译Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得分 53，与 GPT-5.5 (xhigh) 和 Opus 4.8 (max) 差 2-3 分。标准定价（$3/$15 per 1M tokens）下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍，比 Opus 4.8 贵约 15%。推理和知识密集型基准落后 Opus 4.8（如 CritPt 物理推理仅 17%），但在 agentic 知识工作（AA-Briefcase 和 GDPval-AA）上匹配或超越 Opus 4.8。上下文窗口 100 万 token，Anthropic 提供至 9 月 1 日促销价 $2/$10。新增 xhigh effort 设置。整体表现令人失望，并非一次好的发布。

Yuchen Jin@Yuchenj_UW · 2天前31

Claude Sonnet 5 costs more than Claude Opus 4.8 on the Artificial Analysis Intelligence Index task, and 4.75X more than GLM-5.2. Token efficiency is important.

译Claude Sonnet 5 在 Artificial Analysis Intelligence Index 任务上的成本高于 Claude Opus 4.8，并且是 GLM-5.2 的 4.75 倍。Token 效率很重要。

Rohan Paul@rohanpaul_ai · 2天前65

Anthropic unveils 'Claude Science' for scientific research. Early users report 10 review drafts over 100 pages and germline analyses in one-tenth the time. Its a beta tool featuring code-traced artifacts and access to 60 scientific databases. The launch is part of Anthropic's life sciences and healthcare initiative, which the IPO-bound Anthropic has been developing since October 2025. The traditional scientific workflow forces scientists across databases, notebooks, R, terminals, viewers, and cluster queues. Each switch broke context, added manual checking, and made results harder to reproduce months later. Claude Science tries to move that whole loop into one running research session. A coordinating agent can call specialist agents, lab skills, scientific databases, and compute resources. The app renders 3D proteins, genome tracks, chemical structures, figures, manuscripts, and underlying code. Every artifact includes its code, environment, plain-language method, and full message history. So makes verification less dependent on memory and more dependent on inspectable execution traces. - Claude Science can submit jobs to lab HPC systems or Modal compute. - It can scale analysis from 1 GPU to hundreds while datasets stay local. - The reviewer agent checks calculations, references, and figures against their source code.

译Anthropic 推出 Claude Science beta 版，整合 60 个科学数据库，支持代码追踪的 artifact（含环境、方法及完整消息历史），可渲染 3D 蛋白质、基因组轨迹、化学结构等。协调 agent 可调用专业 agent、实验室技能和计算资源（HPC 或 Modal），分析从 1 GPU 扩展至数百，数据保持本地。内置审稿 agent 自动检查计算、引用和图表与源代码一致性。早期用户报告：生成 10 份超 100 页的审稿草稿，种系分析时间降至十分之一。该工具属于 Anthropic 自 2025 年 10 月启动的生命科学与医疗健康计划。

Artificial Analysis@ArtificialAnlys · 2天前60

Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost more per task than Opus 4.8 We supported @AnthropicAI to evaluate Claude Sonnet 5 ahead of release: with max effort it improves 6 points over Sonnet 4.6 to achieve the same Intelligence Index as GPT-5.5 with high reasoning, but remains behind Opus 4.7 and 4.8 Key takeaways: ➤ Claude Sonnet 5 is the #5 model on the Artificial Analysis Intelligence Index, only 2-3 points behind GPT-5.5 (xhigh) and Opus 4.8 (max) ➤ With max effort, Sonnet 5 works harder than previous Anthropic models: it used ~40% more output tokens per Intelligence Index task than Sonnet 4.6, and ~3x the agentic turns for our knowledge work evaluations AA-Briefcase and GDPval-AA. This behavior scales well with the ‘effort’ setting, with the max effort using around 6x more turns than low effort on GDPval-AA ➤ Claude Sonnet 5 costs more per task than Opus 4.8 before accounting for promotional pricing: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than Claude Opus 4.8. This is driven entirely by increased token usage. Sonnet 5 retains the same $3/$15 per 1M input/output token pricing as Sonnet 4.6 (compared to $5/$25 for Opus 4.8), however Anthropic is offering a one-third reduction to $2/$10 until September 1. Our results use standard $3/$15 pricing ➤ Sonnet 5 matches or outperforms Opus 4.8 on agentic knowledge work tasks: on both AA-Briefcase and GDPval-AA, Claude Sonnet 5 sits just ahead of Opus 4.8, trailing only Claude Fable 5 (which is not currently generally available). These benchmarks test the ability of models to produce accurate and well-presented professional outputs using our open source reference agent harness, Stirrup ➤ For reasoning and knowledge-heavy tasks, Sonnet still sits behind its larger siblings: despite substantial gains across many evaluations, heavy reasoning and knowledge benchmarks still show Opus 4.8 ahead of Sonnet 5. On CritPt, a frontier physics reasoning benchmark developed by researchers at Argonne and UIUC, Sonnet 5 scores 17% - this is 14 points higher than its predecessor, but behind GLM-5.2, Claude Opus and Fable, and GPT-5.5 (xhigh and Pro) ➤ Sonnet 5 also showed significant improvements over Sonnet 4.6 on Terminal-Bench v2.1 (+9 points), Humanity’s Last Exam (+10 points), and SciCode (+7 points), with relatively flat scores elsewhere Other key model details: ➤ Context window of 1 million tokens (equivalent to Sonnet 4.6) ➤ Pricing of $3/$15 per 1M tokens of input/output (reduced to $2/$10 until September 1); cache pricing remains at a 25% premium for cache writes ($3.75 per million tokens) with 5-minute time to live, and 90% discount for cache hits ($0.3 per million tokens) ➤ Effort remains the recommended way of configuring model performance and latency. Sonnet 5 adds an additional ‘xhigh’ effort setting relative to Sonnet 4.6, matching the 5 effort levels available on Opus 4.8 (max, xhigh, high, medium, low)

译Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53（第 5 名），比 Sonnet 4.6 提高 6 分，与 GPT-5.5 (xhigh) 持平，落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%，主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token（促销至 9 月 1 日降至 $2/$10），上下文窗口 1M tokens，新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8，推理基准仍落后。Terminal-Bench v2.1（+9）、HLE（+10）、SciCode（+7）显著提升。

AYi@AYi_AInotes · 2天前63

damn，做科研AI工具的上千家初创公司，今天可以直接解散了

译Claude 官方宣布推出 Claude Science，一款为科研全阶段设计的新应用。支持代码溯源、按需环境管理，并可连接 60+ 科学数据库，现已开放 beta 测试。有评论称此消息可能冲击众多科研 AI 初创公司。

ClaudeDevs@ClaudeDevs · 2天前51

We’ve added a few updates to Claude Managed Agents: Streaming session event deltas, per-session agent overrides, new webhook event types, reverse pagination, and credential injection scoping.

译我们为 Claude Managed Agents 添加了一些更新：流式会话事件增量、按会话的代理覆盖、新的 Webhook 事件类型、反向分页以及凭证注入作用域。

Chubby♨️@kimmonismus · 2天前56

OpenAI achieved a much more significant breakthrough today. Sonnet 5 is an average release. But the fact that OpenAI, according to The Information, has managed to more than halve the inference costs of its current models through a new approach to inference optimization is absolutely groundbreaking. And when you also consider that they recently introduced their own inference chip with Broadcom, which is said to be faster and more efficient than the competition, I increasingly see OpenAI in an outstanding position. Today, at least, OpenAI emerges as the winner of the day.

译作者认为 OpenAI 今天取得更重大突破：通过新推理优化方法将推理成本降低一半以上，并与 Broadcom 合作推出更快更高效的推理芯片，使 OpenAI 处于突出位置。相比之下，Sonnet 5 只是一次普通发布。引用推文进一步指出，Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8，定价不变，版本号从 4 跳到 5 不合理，可能只是为维持话题的中间发布，整体令人失望。

Rohan Paul@rohanpaul_ai · 2天前74

And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much cheaper, with $2 input tokens and $10 output tokens per 1M through Aug-26. Price rises after 08-26 to $3 input and $15 output per 1M. They call Sonnet 5 its “most agentic Sonnet model yet,” Its coding score hit 63.2% on SWE-bench Pro, versus 58.1% for Sonnet 4.6. Sonnet 5 gets 63.2% in agentic coding, while Opus 4.8 reaches 69.2% and Sonnet 4.6 hits 58.1%. But in knowledge work, Sonnet 5 slightly beats Opus 4.8, even though Opus is known for tough judgment and deep research tasks.

译Anthropic 发布 Claude Sonnet 5，拥有 1M token 上下文窗口（此前泄露），编码能力显著提升：SWE-bench Pro 得分 63.2%，高于 Sonnet 4.6 的 58.1%；知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日：输入 $2/1M tokens，输出 $10/1M tokens；之后涨至 $3/15。当前智能体编码得分 63.2%，与 Opus 4.8（69.2%）仍有差距，但低价策略大幅降低 agentic AI 成本。

Rohan Paul@rohanpaul_ai · 2天前56

love it. Claude desktop app comes to Ubuntu/Linux. I'm a hardcore Ubuntu user, and till now could only use Claude through the browser and terminal. Claude Mythos proly built and released this in about an hour 😂

译太爱了。Claude 桌面应用现已登陆 Ubuntu/Linux。我是一名硬核 Ubuntu 用户，之前只能通过浏览器和终端使用 Claude。 Claude Mythos 大概在一小时内就构建并发布了这个版本 😂

AYi@AYi_AInotes · 2天前65

holy fucking shit， Anthropic把正经能落地的agent能力，直接下放到了中端产品线， Sonnet级的价格， Opus级的agent能力， Anthropic这波是真的杀疯了🤯

译我靠， Anthropic 把真正能落地的智能体能力，直接下放到了中端产品线， Sonnet 级的价格， Opus 级的智能体能力， Anthropic 这波是真的杀疯了🤯