A Nature Medicine study found general-purpose LLMs are now outperforming dedicated medical AI products on physician-reviewed clinical tasks. The authors compared OpenEvidence and UpToDate Expert AI with GPT-5.2, Gemini 3.1 Pro, and Claude Opus 4.6 on medical exam questions, clinician-style answers, and real questions doctors asked during care. In 100 de-identified physician questions from live clinical use, blinded clinicians again preferred the frontier models, especially on completeness and clarity,

译《自然·医学》一项研究发现，通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中，盲审医生更偏好前沿模型，尤其在其回答的完整性和清晰度方面。

🚨 AI News | TestingCatalog@testingcatalog · 6月13日49

Claude Convey Agent will be released as a Labs project, similar to Claude Design. > Conway is a managed agent for Claude that will run in a remote container. > Users will be able to install different custom UI Tabs and plugins for Conway. And it might be bigger than you think 👀

译Claude Convey Agent 将作为 Labs 项目发布，类似于 Claude Design。 > Conway 是一个由 Claude 管理的 Agent，将在远程容器中运行。 > 用户将为 Conway 安装不同的自定义 UI 标签和插件。而且它可能比你想象的更大 👀

Ethan Mollick@emollick · 6月13日63

10 months later, I gave Claude Code with Fable the same brief, asking it to construct SimRefinery from surviving screenshots and documentation. Fully playable, with a learning mode & all sorts of sophistication. Look at the difference from the old version! https://simrefinery.netlify.app/

译10个月后，Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令——根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩，包含学习模式等多种复杂功能，与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码，仅偶尔提小修改请求。

Chubby♨️@kimmonismus · 6月13日24

Looking at the graph, I think Fable 5 will only maintain its lead up to GPT-5.6. And secondly, I think the benchmark will soon be completely saturated.

译观察图表，我认为 Fable 5 只会保持领先直到 GPT-5.6。其次，我认为该基准测试很快就会完全饱和。

Ethan Mollick@emollick · 6月13日57

The shape of the graph is getting very familiar.

译Claude Fable 5 在 FrontierMath 基准测试（Tiers 1-4, v2）中表现优异，Tiers 1-3 得分 87%，Tier 4 得分 88%，延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道：“图形的形状越来越熟悉了。”

Epoch AI@EpochAIResearch · 6月13日41

Claude Fable 5 scores very well on FrontierMath: Tiers 1–4 (v2), reaching 87% on Tiers 1–3 and 88% on Tier 4. This continues a streak of Anthropic models improving rapidly at math.

译Claude Fable 5 在 FrontierMath（Tiers 1–4，v2）上得分很高，在 Tiers 1–3 上达到 87%，在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。

ClaudeDevs@ClaudeDevs · 6月13日61

Claude Managed Agents can operate in a sandbox you control, on your own infrastructure or with any provider you choose. Today we added new guides for @blaxelAI, @e2b, @googlecloud, @namespacelabs, and @superserve_ai, so you can choose the best fit for your use case.

译Claude 托管智能体可以在您控制的沙盒中运行，在您自己的基础设施上或您选择的任何提供商上运行。今天我们新增了针对 @blaxelAI、@e2b、@googlecloud、@namespacelabs 和 @superserve_ai 的指南，以便您选择最适合您用例的方案。

elvis@omarsar0 · 6月13日69

How to effectively run autonomous long-running coding agents? This is one of the most exciting discussions on agents I've ever had. I recorded it and am making it freely available. (bookmark it) The idea of autonomous long-running agents is a real thing. We talk about lots of things like /goal, /loop, and dynamic workflows, and what comes next. One interesting discussion was around how to make the agent run for longer while ensuring it stays on track. Most models today will struggle to coordinate work effectively. They sometimes pause the work early. Lots of mistakes happen, and lots of weird shortcuts (reward hacking). What helps is to be extremely clear about the goals it needs to achieve. To clarify the dos and don'ts clearly. Eliminate any assumptions you think the model would make. Deep expertise matters so much in this. But you can get far through careful planning. My formula currently is to use Opus 4.8 for planning carefully and GPT-5.5 for all executions. For the evaluator (via /goal), I am often using something like Deepseek or the latest models from Qwen, Kimi, and MiniMax, etc. Another insight we discussed to enforce goals is to provide strong visual cues for the agent to compare with. I found that a multimodal goal is a much stronger goal than a plain text one. And use agents to help you set clear goals. Watch here: https://academy.dair.ai/events/cmplo7v3b000e04l1pxprat4d

译DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作，会过早暂停、犯错或走捷径（reward hacking）。关键在于明确目标、消除假设，避免模型自行推断。他的实践公式：用Opus 4.8进行细致规划，GPT-5.5执行所有步骤，评估器（通过/goal）则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标，比纯文本目标更强，能更好地约束智能体。完整讨论已录制并免费开放。

Ammaar Reshi@ammaar · 6月13日53

I asked Claude Fable 5 to reverse engineer a 1993 DOS game with no source code. It read the raw machine code, rewrote the engine in C, and gave me a fully editable port for every platform. 30 min from EXE to iPhone. Sharing it all so you can revive your own childhood games!

译我让Claude Fable 5逆向工程了一款1993年的DOS游戏，没有源代码。它读取了原始机器码，用C重写了引擎，并给了我一个完全可编辑的移植版，适用于每个平台。从EXE到iPhone，30分钟。分享这一切，让你也能复活自己的童年游戏！

Rohan Paul@rohanpaul_ai · 6月13日66

The Information: Anthropic is reportedly moving from renting cloud compute to leasing and managing data centers itself, with more than 1GW of planned U.S. capacity and Google potentially backing the lease payments. The old model is simple: Anthropic pays cloud providers for GPUs or custom chips, but the cloud company controls the building, power, networking, cooling, and much of the hardware schedule. The new model puts Anthropic closer to the factory floor of AI, where data centers are not office buildings but power-heavy machine rooms built to feed training and inference systems around the clock. To give context of its current situation, until now, Anthropic’s compute strategy has mostly run through cloud providers, with over 10GW of server rentals committed, including a $200 billion Google agreement. The company has also locked in large cloud deals with Akamai, AWS, CoreWeave, and Fluidstack, covering Amazon’s Trainium hardware and a $50 billion Fluidstack partnership. It has also expanded its data center team and signed a SpaceX/xAI lease for the whole Colossus 1 data center at $1.25 billion a month, plus Colossus II space.

译Anthropic正从租用云算力转向自建数据中心，计划在美国部署超1GW容量，Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁，包括与Google的2000亿美元协议，以及Akamai、AWS、CoreWeave、Fluidstack的大型合作（含500亿美元Fluidstack合作、AWS Trainium硬件）。此外，Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间，并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。

AYi@AYi_AInotes · 6月13日47

Claude Fable 5+gpt-image 2简直就是生图王炸组合！！ oh no，应该是掌管AI生图的神，这以后还自己研究什么生图提示词啊，想要什么图交给Fable5就好了啊！时间过得也快，眨眼小半年没有玩AIGC生图了，趁着今天不加班，想着试试用Fable5给我个美女看比赛的图，就把其女友的照片发给它了，提示词就一句话：给我一个这个女孩看NBA总决赛的现场照片，身材要比参考照片丰满一些，要笑靥如花，背后是美国总统特朗普和尼克斯老板，结果真的让我卧槽了，他思考的过程会先分析gpt对什么关键词敏感，以及不能出现NBA等品牌词，不能出现人名，自己把NBA改成了NBC，把特朗普去掉了，然后再看出片效果，这质感、光影，人物一致性，前女友看到都得跟我复合吧！提示词老规矩评论区自取⬇️

译用户分别测试了Claude Fable 5与gpt-image 2的组合以及Fable 5单模型。生图场景中，用户给了一张女友照片和一句话提示词（“看NBA总决赛，身材丰满，笑靥如花，背后是特朗普”），模型自动分析敏感词，将NBA改为NBC、移除特朗普，生成的人物一致性与光影效果惊艳。另一场景，用户直接对Fable 5说“做落地页，自由发挥”，模型自主搜索2026设计趋势、调整配色动效、藏了3个彩蛋，几分钟内输出完整可用的单文件HTML。模型展现出极强的自然语言理解和主动规划能力。

Claude@claudeai · 6月12日40

Claude Fable 5 has been out for a couple of days. Some projects people have already built with it:

译Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目：

Deedy@deedydas · 6月12日72

Claude 5 Fable (Ultracode) "Make a playable alpine glacial valley at sunrise" No meshes or models. Everything you see is math. Fable screenshotted its own work and iterated. Took ~30 mins, ~500k tokens, ~2500 lines of code, and ~$25. Extremely impressive.

译Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。耗时约 30 分钟，约 500k tokens，约 2500 行代码，约 25 美元。极其令人印象深刻。

Ethan Mollick@emollick · 6月12日72

There has been a push to use OpenEvidence AI for doctors. But this paper suggests general models are much better: “Frontier LLMs outperformed clinical AI tools in all three evaluations. Clinical AI tools performed comparably to auto-enabled Google Search AI Overview on the RCQ.”

译一项发表在Nature Medicine的研究显示，通用前沿大语言模型（Google、OpenAI、Anthropic）在医学信息评估中全面优于专门的临床AI工具（OpenEvidence和UpToDate）。12名美国临床医生进行随机盲测，Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Emad@EMostaque · 6月12日38

If you think AI valuations are crazy just wait until SpaceX, OpenAI and Anthropic all are liquid. Hopefully some crazy ideas and impactful ideas get funded, especially as many of the stockholders think AGI is coming so like use it or lose it

译如果你觉得AI估值疯狂，那就等到SpaceX、OpenAI和Anthropic都变得流通起来。希望一些疯狂但有影响力的想法能得到资助，尤其是很多股东认为AGI即将到来，所以要么利用它要么失去它。

Rohan Paul@rohanpaul_ai · 6月12日64

Anthropic's Dario Amodei's new interview: on U.S. military use of Claude. Says “terrible” mistakes may be made. Argues that Anthropic has tried to set limits/"red lines" around how its models can be used, even if doing so risks the company’s future.

译Anthropic 的 Dario Amodei 最新访谈：关于 Claude 在美国军事中的使用。他表示可能会犯下“可怕的”错误。并主张 Anthropic 一直试图为其模型的使用设定限制/“红线”，即使这样做会危及公司的未来。

小互@xiaohu · 6月12日76

http://x.com/i/article/2065389944034775040 # Claude Fable 5 官方指南：省钱又有用的使用方法拆解 Anthropic 上了新模型 Claude Fable 5，是现在能用到的最强的一个，专门用来接以前接不住的长活、难活。 Anthropic 同步发布了一份官方提示词工程指南：Fable 5 的能力跃升太大，旧的提示词和编排架构会拖后腿，你需要重新学怎么用它。但其实官方指导总结下来很简单就是：让你先删提示词！ - Fable 5 能持续多天执行目标导向任务，单次请求在高 effort 下可运行数分钟，自主运行可达数小时 - 指令遵循能力强到不再需要逐条列举禁止行为，一条简短指令就能引导大多数行为 - 旧模型的提示词对 Fable 5 来说往往"过于规范化"，反而降低输出质量，官方建议做减法 - 新增 effort 分级控制（low/medium/high/xhigh），Fable 5 的 low 可能就超过旧模型的 xhigh - 并行子代理调度成为一等能力，模型会主动分派并行任务下面我把这份指南，挑出真正影响你怎么用它的几块说说：它强在哪、两个得你主动喂的新能力、effort 怎么调、一份按档位算账的省钱指南、它新冒出来的几个脾气怎么治（带能直接抄的提示词）、迁移要避哪些坑。看你怎么用 Claude，各取所需。 ## 先说为什么强了反而要删提示词打个你熟的比方。新来的实习生，你得把话说死：第一步干嘛、第二步干嘛、碰到这种情况怎么办、那种情况别碰。不是他笨，是他没经验，你不写清楚他真会出岔子。但同一张事无巨细的清单，拿去管一个干了十年的老手，会怎样？他本来凭经验就能把事办得漂亮，结果被这张清单捆住手脚，照着那些其实不太高明的规矩来，活儿反而干差了。你给 AI 写的那些提示词，大多是当年伺候实习生攒下来的。模型不够聪明的时候，你得一条条堵住它可能犯的错。Fable 5 的意思是，它已经是那个老手了，你那摞老规矩现在是绑手绑脚。官方原话是，为旧模型写的规则对它来说常常管得太细，反而把输出质量拉低。这条我自己的体感能印证。昨天我测试的这个案例就是很简单的提示：帮我制作一个详细介绍黑洞是如何诞生的超炫酷动画页面。 ## 它到底强在哪，值不值得你折腾官方在讲技巧之前，先列了七项能力提升。挑你能直接感觉到的说： - **长任务不忘事：**它能连着干好几天的目标任务，跨多天从头记到尾，不像老模型干到后面把你最初的要求丢了。 - 经常一遍就做对：早期试用的人说，以前要来回返工好几天才跑通的系统，它单次就实现了。不是说它从不出错，是只要你把要求讲清楚，一把过的概率高了很多。 - 自己看图、自己查问题：给它糊的、歪的截图，它自己想办法处理，还被专门训练过用工具裁剪图片；查老问题能翻代码的历史记录，定位到是哪次改动埋的雷。 - 找 bug 更准：在安全限制之外的领域，它翻代码、翻仓库历史揪 bug 的能力，明显比上一代 Opus 4.8 高。 - 自己带一队分身：它能把一个大活拆开，派给好几个子代理同时干，自己当调度的工头，还盯着每个分身的进度。除了这几项，它几乎在所有任务上都比旧模型强。一个实用建议是，别只拿简单活去测它，那样会低估它的上限；把你手头最难、最久、还没解开的问题丢给它，才看得出它到底能干到哪。 ## 两个最值钱的新能力，得你主动喂 Fable 5 真正比上一代强一大截的地方，但你不主动给，它发挥不出来。第一个，放手让它派一队分身。它能当工头，但你得明确告诉它“可以多派分身、各干各的、别干等着一个个回来”，它才放得开。 > Delegate independent subtasks to subagents and keep working while they run. Intervene if a subagent goes off track or is missing relevant context. > 把相互独立的子任务派给子代理，它们跑的时候你接着干自己的。某个子代理跑偏了，或者缺了相关上下文，再去干预。让分身长期留着、跨任务保留上下文，还能省缓存、不卡在最慢那个上。这个能力还能直接变成省钱手段，后面「省钱指南」一节有完整玩法。第二个，给它一个记事本。给它一个地方记笔记，简单到一个文本文件就行，让它把每次踩的坑、确认有效的做法记下来，下次翻出来用，它会越用越顺。官方给的记笔记规矩是这样： > Store one lesson per file with a one-line summary at the top. Record corrections and confirmed approaches alike, including why they mattered. Don't save what the repo or chat history already records; update an existing note rather than creating a duplicate; delete notes that turn out to be wrong. > 一个文件只存一条经验，顶上写一句话摘要。纠正和确认有效的做法都要记，连同它们为什么重要。仓库或聊天记录里已经有的别存；同一件事更新那条已有的笔记，别新建一条重复的；后来发现记错的，删掉。这几条跟我自己给 Claude 配的记忆系统几乎一字不差。我那套也是一个文件一条、顶上一句摘要、记纠正也记确认、都写明为什么、重复的更新不新建、错的直接删。我搭它的时候没参考任何标准，是自己踩着坑一条条补出来的土办法。现在看到官方把同样的规矩写进指南，我的判断是：这份指南不只是教你用新模型，更像是官方把一批重度用户摸出来的土办法，收编成了标准。模型越能自己记事、自己复盘，“记忆该怎么管”这点功夫就越值钱。还有个小习惯，省事又好用：交代任务时，把“为什么要这么做”也一起说了，别光丢一句命令。它懂了你的目的，自己就能把事跟相关信息对上，不用瞎猜。套个模板： > I'm working on [the larger task] for [who it's for]. They need [what the output enables]. With that in mind: [request]. > 我在做[更大的任务]，是给[谁]用的，他们需要[这个产出能带来什么]。基于这个背景：[具体请求]。 ## effort：Fable 5 上最重要的那个旋钮这是这代最该先搞懂的一个参数。effort 控制的是模型的智力、速度、成本三者怎么权衡，分四档：low、medium、high、xhigh。官方的建议是：大多数任务用 high 当默认，最吃能力的硬活用 xhigh，日常杂活用 medium 或 low。 Fable 5 的低档，比Opus旧模型拉满的 xhigh 还强。所以别习惯性把它顶到最高，那既慢又贵。任务能做完但花的时间比该花的长，或者你想要更快、更能来回聊的节奏，就往下降档。怎么配： ## Fable 5 省钱指南：单价贵一倍，账单可能更便宜 Claude Fable 5 的 token 单价是 Opus 4.8 的两倍（输入 $10/M，输出 $50/M），但多个实测数据显示，因为模型更聪明、完成同一任务用的 token 更少，最终账单在复杂任务上反而可能更低。省钱的底层逻辑不是“少想”，而是“少犯错”。先看数据：Fable 5 Low 档 vs Opus 4.8 Max 档下面这组数据来自第三方代码基准测试，这组对比是省钱策略最直接的证据：这背后的逻辑，Claude Code 之父 Boris Cherny 称：以前不够聪明的模型，写错了改、跑挂了重跑，每一轮都在烧 token。Fable 5 单任务 token 更少、纠错动作更少，实际上消耗的token更少，砍掉的就是这部分隐性成本。策略一：日常任务直接开 Low 档 Fable 5 Low 档的 64.2% 得分，已经超过了榜单上除 Fable 自己以外的几乎所有模型配置，包括 Opus 4.7 Max（64.8%，但成本 $11.02）、GPT-5.5 Extra High（64.3%，成本 $4.37）、Opus 4.8 Extra High（62.1%）。适用场景：代码编写、调试、日常开发。不是每个任务都需要模型全力思考，Low 档就够了。策略二：要更高质量，Medium 是性价比甜区 Fable 5 各档位的成本收益曲线：从 Low 到 Medium，多花 $2.57 换了 5.6 个百分点，性价比最高。从 Medium 往上，每多花一块钱换来的分数增幅越来越小。High 到 Max 之间多花了 $7.21，只多拿了 2.3 个百分点。 Medium 档的 69.8% 已经超过了榜单上所有非 Fable 的模型配置。对大多数任务来说，这就是天花板了。策略三：复杂项目让 Fable 当指挥，Opus/Sonnet 干活有人分享了一个更牛P、更省Token的玩法，那就是：用 Dynamic Workflow 模式，让 Fable 做编排器（orchestrator）负责理解需求、拆任务、做决策，把实际写代码、跑测试的执行层交给 Opus 或 Sonnet。具体配置三步： 1. 主模型设成 Fable 5 1. effort 开到 Max（最大推理深度） 1. 让 Claude 跑一个 Dynamic Workflow（动态工作流）：Fable 当编排器只管想清楚做什么，Opus 当执行层负责写代码、调试、分析 Fable 5 的核心优势是判断力和调度能力——前面「派一队分身」讲的就是这个，不需要用它的算力写每一行代码。就像公司请了一个年薪两百万的 CTO，不会让他天天写 CSS，让他定架构做决策就行了，写代码的活交给工程师团队。适用场景：大型项目、多步骤工程任务、需要长时间运行的代理工作流。 ## 选档速查表 ## 两个注意事项安全分类器会自动降级。涉及网安、生化、模型蒸馏等敏感请求时，系统自动切到 Opus 4.8 回答，按 Opus 价格计费。Anthropic 说触发率不到 5% 的会话。限时免费窗口。 6 月 22 日之前，Pro、Max、Team 及按席位计费的企业版用户可以直接使用 Fable 5。6 月 23 日起开始消耗用量积分。使用 Fable 5 需要开启 30 天数据保留。 ## 它的几个新脾气，逐个治（带能抄的提示词）模型变强是有代价的：它会自作主张、用力过猛，长时间跑还冒出几个怪毛病。这份指南大半篇幅都在讲这个，也是对你最实用的部分。下面每段提示词，我都给了英文原文和中文版两个方框，抄英文或抄中文都行、效果一样；只想了解意思的，看中文那段就够。 1. 它默认跑很久，你的“等待方式”得改一个难活它能跑好几分钟，全自动能跑好几个钟头。你的程序要是还按“几秒钟必回”设计的，会误以为它卡死了。治法：把超时放宽、给用户加进度提示，更聪明的是别干等，像交代完事就去忙别的、过会儿回来看一眼。另外任务说得含糊时，它容易在那儿反复盘算。加这条让它信息够了就动手： > [text] When you have enough information to act, act. Do not re-derive facts already established in the conversation, re-litigate a decision the user has already made, or narrate options you will not pursue in user-facing messages. If you are weighing a choice, give a recommendation, not an exhaustive survey. This does not apply to thinking blocks. > [text] 信息足够就动手。不要重复推导对话里已经确认过的事实，不要再争论用户已经拍板的决定，也不要在给用户看的消息里罗列你不会采用的选项。如果你在权衡，就直接给一个建议，而不是把所有可能都铺一遍。本条不适用于思考过程。 2. 它太勤快，会干你没让它干的事高 effort 下它爱顺手“打扫卫生”：修个 bug 顺带重构、一次性的操作非要写个 helper、给不可能发生的情况加一堆容错。一条按住它别过度收拾： > Don't add features, refactor, or introduce abstractions beyond what the task requires. A bug fix doesn't need surrounding cleanup and a one-shot operation usually doesn't need a helper. Don't design for hypothetical future requirements: do the simplest thing that works well. Avoid premature abstraction and half-finished implementations. Don't add error handling, fallbacks, or validation for scenarios that cannot happen. Trust internal code and framework guarantees. Only validate at system boundaries (user input, external APIs). Don't use feature flags or backwards-compatibility shims when you can just change the code. > 不要添加任务没要求的功能、重构或抽象。修一个 bug 不需要顺手清理周边代码，一次性的操作通常也不用单写一个辅助函数。不要为假想的未来需求做设计，用最简单、能跑好的办法就行。避免过早抽象和半成品实现。不要为不可能发生的情况加错误处理、兜底或校验。信任内部代码和框架本身的保证，只在系统边界（用户输入、外部接口）做校验。能直接改代码的地方，别用功能开关或向后兼容的垫片。还有一种是你只想听它分析、没让它动手，它直接上手改了。一条划清边界，让它先给判断、别急着改： > When the user is describing a problem, asking a question, or thinking out loud rather than requesting a change, the deliverable is your assessment. Report your findings and stop. Don't apply a fix until they ask for one. Before running a command that changes system state (restarts, deletes, config edits), check that the evidence actually supports that specific action. A signal that pattern-matches to a known failure may have a different cause. > 当用户是在描述问题、提问、或者出声思考，而不是要求你动手改时，你要交付的是你的判断。给出结论就停下，别等他们开口就先去改。在执行任何会改变系统状态的命令（重启、删除、改配置）之前，先确认证据确实支持这个具体动作。一个看着像某种已知故障的信号，背后原因可能完全不同。 ## 3. 一句话，能顶你过去一页的规则这是“做减法”最直接的地方。它现在听话到你不用再一条条列禁止项，一句简短指令就能管住一类行为。比如想让它说话简洁、别绕，一句就够，不用把“不许这样、不许那样”列一长串： > Lead with the outcome. Your first sentence after finishing should answer "what happened" or "what did you find": the thing the user would ask for if they said "just give me the TLDR." Supporting detail and reasoning come after. Being readable and being concise are different things, and readability matters more. > 先说结论。做完之后的第一句话，要回答“发生了什么”或“你发现了什么”，也就是用户说“直接给我结论”时想要的那句。佐证和推理放在后面。可读和简短是两回事，可读更重要。想管它“什么时候才该停下来问你”，也一句话，不用把情况列全： > Pause for the user only when the work genuinely requires them: a destructive or irreversible action, a real scope change, or input that only they can provide. If you hit one of these, ask and end the turn, rather than ending on a promise. > 只在工作真正需要用户介入时才停下来问：一个有破坏性或不可逆的动作、一次真正的范围变更、或者只有他们能提供的信息。碰到这几种情况，就提问并结束这一轮，而不是停在一句空承诺上。你去翻翻老提示词：很多当时你逐条写的限制，现在一句话能替，还更不容易自相矛盾。 4. 长时间跑，它会“虚报进度” 让它自主跑，它报“完成八成”，你一看才四成。它不是存心骗你，是照着计划报、没照着实际结果报。让它每报一条进度，都对一下真实的运行结果，官方说这条基本把虚报摁住了： > Before reporting progress, audit each claim against a tool result from this session. Only report work you can point to evidence for; if something is not yet verified, say so explicitly. Report outcomes faithfully: if tests fail, say so with the output; if a step was skipped, say that; when something is done and verified, state it plainly without hedging. > 报告进度之前，把每一条说法都对照这次会话里的工具结果核一遍。只报你拿得出证据的工作；还没验证的，就明说没验证。如实汇报结果：测试挂了就把输出贴出来说挂了，跳过了某步就说跳过了，确实做完并验证过的，就干脆说做完了，别含糊其辞。 5. 它偶尔会“话说一半就停”和“怕篇幅不够” 跑到很深的地方，它会说一句“我现在去跑 X”然后就停了，那动作根本没做；或者信息明明够了，还停下来问你要不要继续。大多时候你回个“继续”就过去了。没人盯着的全自动流程，给它一段说明，让它该自己往下推就推、别老停下来请示。还有一种，是它看到“还剩多少字数额度”的倒计时会发慌，突然说“要不开个新会话”，或者自己把活儿缩水。治法很简单：别把那个倒计时给它看。非给不可，就补一句“上下文还很充足，别停、别总结、别提议开新会话，接着干”。 ## 迁移之前，这几个坑先避开 - “让它复述思考”的指令，先清掉：如果你的老提示词里有“把你的思考过程写出来给我看”“解释一下你是怎么想的”这类要求，到了 Fable 5 会触发它的一条拒绝规则，结果是大量请求被打回、退到旧模型去处理。迁移前一定回去翻一遍清干净。真想看它怎么想的，官方有别的接口可以读，别硬让它在回答里复述。 - 它会拒绝一些请求，这是设计如此：碰到攻击性网络安全（造病毒、攻击工具那种）、生物和生命科学这两类内容，它会直接拒，正经的安全防御、有益的生物研究也可能被误伤。被拒不算报错，是一次正常的成功响应、还带着是哪条分类器拦的，而且产出之前不计费。解法是配个备胎：被拒的请求自动转给上一代的 Opus 4.8 接手。 - 老技能可能太啰嗦：为旧模型写的技能，对 Fable 5 往往管得太细，反而拉低质量。迁移时把旧指令审一遍，那些删掉之后它默认表现更好的，就删。除了上面三条，官方脚手架建议里还有两条前文没展开的，一并列上： ## 说到底：从管教到放手以前调 AI，琢磨的是怎么把话跟它说清楚。那是一种管教：预判它会在哪犯错，提前堵上；把不许做的事列成清单；把步骤拆细到它走不偏。功夫全花在“过程”上。 Fable 5 这代，琢磨的变成了怎么给它搭一个能放手干活的环境：给够空间让它自己拆活、自己跑；把真正不能碰的边界划死；配上能调度的分身、能记事的本子，剩下的交给它。功夫从“过程”挪到了“边界”。注意一点：放手不等于放任。你回头看上面那些脾气，它们都是放手之后冒出来的代价，不是模型变差。治法也都不是退回去重新事无巨细地管，而是把该划死的边界划死。管得越少它干得越好，前提是该划的边界你得划死。这两句不打架，是一体的。最后，看你怎么用 Claude，对号入座： - 只拿它聊天、查东西、写文案的：不用动什么，知道新模型更能扛复杂长活就行。手头要真有个又难又长、以前嫌它做不利索的活，拿 Fable 5 试一次，这回说不定一把就做完。 - 做内容、做自动化的创作者和小团队：回去把你给 AI 写的提示词翻一遍，当年为防它犯错写的，该删的删（尤其“让它复述思考”那类，会触发拒绝）。再挑一个你平时最烦、最想甩手的长流程，让它自己拆步骤、自己跑。 - 正经搭代理、写程序的：上面方框里的原话直接抄进系统提示，下一节的速查卡可以当对症索引。再给它配上分身调度和记事本，这是它这代最值钱、又最得你主动给的两个能力。 ## 十个调优模式速查卡官方指南把这些场景归纳成十个调优模式。前面各节其实都讲透了，这里压成一张卡，给只想快速对症、抄提示词的人：卡里有两条提示词前文没出现过，补在这里：补充①：防"话说一半就停"（没人盯着的自主管道用）： > 在结束轮次前检查你的最后一段。如果它是计划、分析或承诺（"我将……""请告诉我何时……"），现在就用工具调用完成它。只有在任务完成或被阻塞在只有用户才能提供的输入上时，才结束轮次。补充②：让它从历史会话引导初始记忆（配合记事本用，第一次搭记忆系统时跑一遍）： > 回顾我们之前的会话，用子代理识别核心主题和经验教训，存储在 [指定位置]。确保未来使用时参考这个位置。 ## 两个值得单独讲的工具建议面向用户的可读性指令 Fable 5 在长时间代理式工作中（大量工具调用、庞大上下文）可能产出"只有自己能看懂"的内容：密集的箭头链速记、内部术语、引用用户从未看到的思考过程。官方给了一套沟通风格指令，核心逻辑是：工具调用之间你怎么速记都行，那是你的工作草稿；但最终面向用户的总结，要当成读者第一次看到这件事来写。 > 以结果开头，一句话说明发生了什么。写完整的句子，展开术语，不要用箭头链或自创标签。如果必须在简短和清晰之间选择，选清晰。 send-to-user 工具这是一个面向长时间异步代理的设计模式。给代理一个工具，能在不结束当前轮次的情况下向用户推送消息。工具输入不会被模型摘要化，内容原样到达。适用场景：需要中途向用户展示生成的代码片段、带数字的进度更新，或回复用户在循环中提出的问题。实现很简单，就是一个接收 message 字符串的工具，你在 UI 端直接渲染输入内容，返回确认即可。官方指南：https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/prompting-claude-fable-5

译Anthropic 发布 Claude Fable 5，官方指南强调旧模型提示词会拖后腿，建议“做减法”。Fable 5 支持多天长任务、effort 分级（low/medium/high/xhigh），其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面：输入 $10/M、输出 $50/M（单价为 Opus 4.8 两倍），但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档，Medium 是性价比甜区，复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。

AYi@AYi_AInotes · 6月12日25

发现Claude Fable 5简直就是人生导师般的存在，就下面这一个认知都够我们大多数人练一辈子了，问Fable 5，人这辈子最该玩什么游戏？它选了德州扑克，它说象棋围棋很美，但信息是完全的，所有棋子摆在明面上，胜负只看算力，但现实不是。德州扑克训练的核心能力，是用不完整信息做决策，再用决策质量而非最终结果来评判自己，也就是说，赢了可能只是运气，输了也不代表你选错了。顺着这个话题往下聊，我感觉它还能拆解出很多具体的训练方法，比绝大多数讲决策的书都接地气。 #ClaudeFable5 #AI #认知 #决策 #个人成长 #德州扑克

译用户向 Claude Fable 5 提问“人这辈子最该玩什么游戏”，其回答是德州扑克。Fable 5 解释，象棋围棋虽然完美，但信息完全，胜负仅取决于算力，而现实并非如此。德州扑克训练的核心能力是：在不完整信息下做决策，并用决策质量而非最终结果评判自己。赢了可能只是运气，输了也不代表选错。推文称赞 Fable 5 能就此拆解出具体训练方法，比多数决策书籍更接地气。

Chubby♨️@kimmonismus · 6月12日64

Shoutout to @maxpolaczuk for making a WoW clone with fable 5! :))

译感谢 @maxpolaczuk 用 Fable 5 做了一个《魔兽世界》克隆版！:))

Chubby♨️@kimmonismus · 6月12日26

It's getting ridiculously Anthropic. Nothing even remotely problematic was asked.

译这变得荒谬地 Anthropic。完全没有问任何有问题的事情。

Chubby♨️@kimmonismus · 6月12日70

Someone just casually vibe-coded a World of Warcraft-style multiplayer game that works online with friends. Fully open source. And apparently, Claude Fable found a visually matching set of open-source assets on its own. Ngl, that’s pretty insane.

译有人刚刚随意地vibe-coded了一个魔兽世界风格的多人在线游戏，可以和朋友们一起在线玩。完全开源。显然，Claude Fable自己找到了一套视觉上匹配的开源素材。说实话，这相当疯狂。

Artificial Analysis@ArtificialAnlys · 6月12日60

We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task. The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others. More below.

译Artificial Analysis 更新 Coding Agent Index，以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务，而非改编自公开 GitHub issue/PR，避免训练数据泄露；原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动：Codex with GPT-5.5 (xhigh) 从 65 升至 76，超过 Claude Code with Opus 4.8 (max) 的 73；新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

小互@xiaohu · 6月12日75

升级了下公众号排版技能晚一点发布，还需要优化下增加了一些主题和优化了预览和浏览页面的阅读体验

译小互（@xiaohu）升级了公众号排版技能组合，实现一句话完成排版、封面生成并一键发送到公众号草稿箱。该工具已开源，提供20种主题颜色可选，可自动分析内容进行排版，支持非Markdown文件。用户只需在Claude Code、Codex或OpenClaw中提供文章链接或文档位置，即可获得可视化预览界面进行选择，全程无需手动操作。

ginobefun@hongming731 · 6月12日58

http://x.com/i/article/2065232915970371585 # BestBlogs 早报 · 06-12｜智能体解耦、Harness 工程化、脚手架被吞在线阅读本期早报 ## 导语智能体工程化正在从两端同时收紧。一端是 Anthropic：用 Claude Managed Agents 把推理与执行彻底解耦，靠可恢复的事件日志和独立 Vault 撑起企业级落地，首字延迟中位数已经大幅下降，Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师：用三层加载架构、dispatcher 状态机和 G1-G8 门禁，治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病，给出了一套「用结构约束 AI，而不是用更多字约束 AI」的可复用模式。再往远看，Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势：模型正在把外层脚手架一口口吃掉——路由、执行环境这类原本要靠工程团队搭的能力，正逐渐被基础模型自己吸收，留给独立创业公司的窗口正在变窄。今天的速览部分同样值得关注：从"决策-执行-交付三明治"模型看 AI 为什么不会取代软件工程师，到阿里云用声明式 CRD 把多智能体协作模型化的 AgentTeams 实践，再到端侧大模型靠 Arm SME2 指令集实现 Prefill 提速 80% 的工程细节，以及一位 4 人团队靠 Agent 协作平台冲上 GitHub Trending 的真实运转记录——这些案例和今天的三篇精讲互为印证：工程化的红利正在向「会搭框架、会用工具」的团队和个人集中。 ## 精讲一：智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude 背景：从「一问一答」到「全程托管」 2023 年 Anthropic 开放 Claude API 的时候，接口设计非常朴素：token 进、token 出，一次请求对应一次模型轮次，剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作，但很快就不够用了——用户希望 Claude 能把一个任务从头跟到尾：去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么，而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。要把 Claude 变成这样的智能体，开发者过去必须自己搭一套循环：问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness（智能体执行框架），随后开放成 Claude Agent SDK，让开发者可以在同一套机器之上构建自己的智能体，而不必维护一套自研循环。关键事实：把「大脑」和「双手」彻底拆开即便有了 SDK，把智能体真正推向生产环境依然困难重重：智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择——智能体的 harness 和它操作的文件系统跑在同一个容器里：容器要先启动才能让 Claude 开始思考（付出启动成本），代码执行紧贴着凭证，容器一旦挂掉整次运行就跟着没了。 Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开，中间用一份可追加的事件日志（session）连接两端——记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理，沙箱本身离凭证很远，而整次运行随时都可以从事件日志中重建出来。围绕这套架构，Managed Agents 由三类资源组成：agent（模型 + 提示词 + 工具 + 护栏的配置）、environment（沙箱容器、网络规则和预装包，可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上）、session（每次运行，把一个 agent 和一个 environment 配对，拥有自己独立的沙箱实例）。凭证管理是另一处关键设计：MCP、CLI、GitHub 仓库等工具的 token 统一存进独立的 Vault，用信封加密保护，检索时需要一份经签名验证的请求 token，代码本身永远拿不到这些凭证——即便 prompt injection 想诱导模型读取自己的运行环境，也读不到任何敏感信息。在性能层面，由于 Claude 可以在环境并行启动的同时立即开始推理，从不调用工具的会话甚至可以完全跳过容器，实测下来首字延迟中位数（p50）降低了约六成，最慢的长尾情况（p95）降低超过九成。为什么重要：基础设施差异正在被「抹平」这篇文章最值得关注的一点，是它把「智能体工程」里最耗时的部分——安全、状态管理、权限、harness 调优——明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化，智能体就会出问题：在 Claude Sonnet 4.5 上，模型会在上下文快用完时匆忙收尾、提前打住工作，团队为此专门给 harness 加了「上下文重置」机制；但到了 Claude Opus 4.5，这个行为消失了，之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」，与其反复自己调，不如把这部分托管出去，把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。与今日其他报道的关系这篇文章和今天另外两篇精讲构成了一个完整的叙事闭环：Anthropic 用 Managed Agents 把通用 harness 能力产品化、托管化，恰好对应阿里工程师在精讲二里复盘的「自建 harness」的另一种路径——一个是把基础设施外包给平台，一个是自己动手搭三层加载架构；而 Logan Kilpatrick 在精讲三里提出的「模型吞掉脚手架」趋势，则提示无论是托管方案还是自建框架，都需要持续关注哪些能力会被模型本身吸收。Notion、Sentry、Rakuten 等公司的落地案例，也呼应了速览中阿里云 AgentTeams 把多智能体「组织化」的思路——基础设施成熟之后，下一个竞争点是「怎么把 Agent 团队真正用起来」。阅读建议如果你正在评估是否要自建智能体 harness，这篇文章值得通读全文，重点看「凭证管理」和「会话持久化」两部分的具体设计——这两点往往是自建方案里最容易留坑的地方。完整内容见 BestBlogs 阅读原文。 ## 精讲二：AI 不缺智商缺纪律：一场 Harness 工程化实践背景：CLAUDE.md 越写越厚，AI 反而越读越懵一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑：一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题——先写单测、部署前评审、提交前合并主分支，所有规矩都往里堆。这套做法管用了三天，然后问题以更严重的形式回来了：规则多到把上下文「撑爆」，模型读完所有规则之后已经没有「脑容量」去读代码，于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断：对付 AI 的不确定性，堆 prompt 是负债，搭框架（harness）才是资产。关键事实：三层加载架构 + dispatcher 状态机 + G1-G8 门禁文章的核心是一套三层加载模型，设计思想可以浓缩成一句话：把上下文当预算管理，而不是当免费的草稿纸。常驻入口层（CLAUDE.md + CLAUDE.local.md）只放角色定义、代码偏好、流程触发规则和门禁速查表，把主会话的常驻上下文压到 8K 以内；原子规则层（rules/）每条规则单一职责，本质是把踩过的坑固化成强制约束——「每条规则都是一次事故的墓志铭」；按需上下文层（context/）存放完整流程详情、Pre-Mortem 模板、TDD/ATDD 指南等深度内容，只在进入对应阶段时才被读取，用完即释放。更关键的是角色 Agent 层：一个 dispatcher 读取 state.json 和 workflow.yaml，决定下一步该调用哪个 agent，自己只管路由不管业务；orchestrator 负责合成三角色（业务、技术、质量）评审的观点并向用户确认；developer、verifier、deployer、tester 各管一段，从方案到验收一步一岗。主会话被刻意「降级」成一个只听 dispatcher 指令的纯执行器——这个设计反直觉，因为我们本能地想让主模型更全能，但全能恰恰是污染之源。贯穿全文的还有一条 19 节点的标准研发链路，按 intent（意图）× risk（风险）动态裁剪——一次简单的 BUG_FIX/LOW 任务只需要检查 5 个节点，而 FEATURE/HIGH 任务要走满 19 个节点，外加一条硬规则：只要检测到真实业务代码改动，部署预发和接口测试自动成为必需节点，堵死「改了代码、没验证就收工」的漏洞。为了回答「改完 harness 到底是变好还是变坏」这个问题，作者还搭了一套确定性评分平台：100% Python 逻辑、零 LLM 调用、3 次跑分 hash 完全一致，从 7 个维度（参考了 SWE-bench、AgentBench、Anthropic Eval Guide、CMMI 等方法论）给每次执行打分，权重最高的两个维度是流程完整性（22%）和代码正确性（22%）——前者靠「产物文件在不在」而不是「模型说做了」来判断，后者用真编译、真单测来防止 AI 自我汇报和实际结果之间出现「诚实度差距」。为什么重要：从「堆 prompt」到「做框架」的范式转移这篇文章给出的核心论点，是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」——模型已经足够聪明，但不稳定，而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断：Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布，中部信息准确率显著下降；另一项研究（arxiv 2605.29682）发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R²=0.33~0.42，而验证反馈质量能达到 R²=0.94~0.99——也就是说，决定 AI 干活靠不靠谱的不是「给它多少预算」，而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委：宁要可复现的「粗糙分」，不要会漂移的「精准分」。与今日其他报道的关系这篇文章和精讲一形成了有趣的对照：Anthropic 把 harness 能力做成了托管产品，而这位工程师选择自己动手，用 dispatcher + 文件交接的方式搭了一套轻量级的「控制平面」。两者殊途同归的地方在于：都把「流程纪律」从模型推理中外置成确定性的基础设施——一个靠平台层的事件日志和 Vault，一个靠文件系统的状态持久化和 G1-G8 门禁。文章里提到的「fail-closed（默认拒绝，只放行显式允许的操作）」原则，也是精讲三里 Logan Kilpatrick 讨论的「脚手架」最终会沉淀成什么形态的一种答案：当模型还不能自我保证流程纪律时，这类外置约束就是当下最稳的解法。阅读建议如果你正在用 AI 做长周期、跨多个阶段的开发任务，这篇文章里的三层加载架构和 19 节点裁剪规则可以直接拿来参考；如果你更关心「怎么验证一次 harness 改动到底有没有用」，重点看第四部分的 7 维评分体系设计。完整内容见 BestBlogs 阅读原文。 ## 精讲三：Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架背景：Google 智能体生态的「重新打地基」在 Sequoia Capital 主持的这场访谈中，Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线，Gemini API 的出现提供了一层共享的基础智能层，而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合——这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力，把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。关键事实：Gemini 3.5 Flash 的提升全部来自后训练，模型在「吃」周边脚手架 Logan 特别提到，智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时，他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益——这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时，Google 内部的深度「自用」（dogfooding）也大幅压缩了产品迭代周期，让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。更值得关注的是「世界模型」架构的演进——以 Omni 这样的系统为代表，行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」，能够同时解释多模态序列，并在编辑操作中展现出对场景的整体理解：调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是：应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施——曾经作为外部平台脚手架搭建的工程能力（比如路由机制、执行环境封装），正逐渐被上移并整合进模型自身的核心逻辑中。为什么重要：独立公司的生存空间在收窄对于独立创业公司和软件初创团队而言，Logan 给出的结论并不轻松：长期生存将高度依赖于在特定垂直领域内的深度专精，只有这种独特的市场聚焦才能在某些场景下跑赢通用化的消费级系统。换句话说，「在模型外面搭一层路由 / 编排 / 执行环境」这件事本身的护城河正在变薄——基础模型每完成一次后训练迭代，就可能把昨天还需要专门团队维护的脚手架变成今天的「免费午餐」。与今日其他报道的关系这篇访谈给今天的另外两篇精讲提供了一个更长远的视角。精讲一里 Claude Managed Agents 把 harness 做成托管基础设施、精讲二里那位工程师辛苦搭出的三层加载架构和 G1-G8 门禁——这些工程投入的价值会随着模型本身「吃掉脚手架」的速度而发生变化。但这并不意味着这些投入是徒劳的：恰恰相反，越是「过程可观测、可固化成规则」的工程能力，越有可能被模型吸收为原生能力，而那些依赖深度领域知识、无法简单规则化的部分，反而会成为 Logan 所说的「垂直专精」的真正壁垒。这也是为什么精讲二的作者特别强调「这套模式的价值会随模型进化而衰减，当模型强到能自我保证流程纪律的那天，harness 就该功成身退」——两篇文章在不同立场上得出了相似的判断。阅读建议如果你在思考公司或团队的技术护城河，这段访谈值得完整看一遍，尤其是关于「世界模型」架构演进和「脚手架被吞」的部分，能帮你判断当前投入的工程能力哪些更容易被模型吸收、哪些更值得长期押注。完整内容见 BestBlogs 阅读原文。 ## 速览为什么 AI 还没有取代软件工程师，而且也不会这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象：尽管 AI 编程能力的进步速度和落地速度都远超其他行业，软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层——决策（decide）、执行（execute）、交付（deliver），AI 主要压缩的是中间的「执行」层，但两端的「决策」和「交付」（包括对结果负责）依然高度依赖人类判断，不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究（SWE-chat），数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队，本文是系列文章的第一篇，后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文：BestBlogs。云原生 - AI Native 多智能体数字人架构实践阿里云开发者团队分享了他们基于商业化产品 AgentTeams 落地「数字员工小分队」的实践：通过声明式 CRD（自定义资源定义）把组织结构和协作策略模型化，让多个 Agent 像一个真实团队一样分工协作，而不是各自为政、互相抢活。文章用一个凌晨三点的告警场景开场——以前需要值班同学被叫醒、登录跳板机、翻日志、判断根因、必要时拉群升级，整套流程下来 MTTR（平均故障恢复时间）轻则一两个小时；而在 AI Native 的流程里，告警进来 30 秒内就有 Agent 数字人贴出第一轮诊断结论并 @ 另一个 Agent 进一步定位，90 秒后根因定位完成并给出可执行修复脚本，留给人的只是「是否在生产环境直接执行修复」这一个判断。文章还梳理了从 RPA 到大模型再到多 Agent 协同的演进逻辑：RPA 是「录屏式」自动化，规则固定但不理解业务，界面一变就要返工；大模型带来了「理解」能力，Agent 不再是录屏脚本，而是能听懂模糊指令、查文档、调工具、做判断；但单 Agent 有天花板——上下文窗口有限，遇到需要多角色协作的真实业务场景（产品提需求、研发写代码、测试跑回归、文档同步发布）就会力不从心，于是自然演化到多 Agent 协同。文章特别强调「让多个 Agent 跑起来」和「让它们像一个团队一样工作」是两件完全不同的事：没有组织结构就没有稳定的分派关系，没有通信策略就没有可控可审计的消息边界，没有共享状态和统一网关就没法把 LLM 和工具（MCP）安全接入。AgentTeams 正是为解决这一整套组织化问题而生，文章给出了网络架构图和研发、值班、开源维护等场景的具体落地步骤。阅读原文：BestBlogs。端侧 AI 提速 80%？如何让 Qwen3-VL 在手机起飞通义实验室团队手把手演示了如何利用 Arm 第二代可伸缩矩阵扩展（SME2）指令集与 MNN 推理引擎，在支持 SME2 的旗舰手机（如 vivo X300）上部署 Qwen3-VL-4B 这样的多模态模型，实现 Prefill 阶段提速超过 80%。文章解释了 SME2 的核心突破——引入 ZA 矩阵累加器寄存器和流式模式，让 FMOPA 等指令可以一条指令完成一个矩阵 tile 的外积累加，相比传统 Neon 需要手工拆分向量乘再累加效率大幅提升。MNN 对 SME2 的支持采用「编译时内建 + 运行时自动检测」设计：编译时通过 MNN_SME2 开关（默认开启）控制是否编译优化内核，运行时自动检测硬件支持情况，不支持则平滑回退到 i8mm → Neon，不会崩溃；同时覆盖 FP32、FP16、INT8/INT4 三种精度，并集成了 Arm 官方 KleidiAI 加速库。文章给出了从引擎编译、模型部署到 APP 构建的完整实战流程。阅读原文：BestBlogs。人是最慢的节点，还怎么管 AI Agent？｜AI 跃迁者调研腾讯研究院「AI 跃迁者调研」系列第四期，深度访谈了开源 Agent 协作与编排平台 Multica 的创始人张佳圆。Multica 连续霸榜 GitHub Trending，一周涨 1.2 万 Star，访谈时已收获 2.75 万 Star，平台上每 10 秒就触发一个 Agent 任务——而做出这一切的团队只有 4 个人，这 4 个人本身也是 Multica 最极端的用户，构成了一个「4 人 + 几十个 Agent」的超级小团队。访谈中提出了几个值得玩味的观点：整个组织的产出效率瓶颈如今已经是「人」而非 AI 或 Agent；建太多管理层级是对人类低效组织的拙劣模仿；快速做一个错误决策，比缓慢做一个正确决策更好，因为错误决策可以修正，但犹豫不决会让整个组织在某个环节卡死；只要活得足够久，本身可能就是一种很大的壁垒；而人的思考在 AI 时代是被低估的——AI 给出的东西可能只是一个「中位数」水平的答案。产品定位上，Multica 做的不是 Agent 本身，而是一个模型和平台中立的协作层，处理多个 Agent 怎么分工、怎么传递任务、怎么合并上下文。产品的三个核心概念分别是：运行时（Agent 运行的机器，可以是本地 MacBook、Mac Mini 或服务器，统一注册到 workspace）、智能体（相当于 AI 员工，可分配任务、设置角色）、Agent Team（多个 Agent 组成的小队，有自己的工作流程）。日常使用模式是创建任务、分配给对应的 Agent 或 Agent Team，人只需做最终 review，需要介入时会出现在 inbox 里。阅读原文：BestBlogs。 Fable AI 实现 1770% 性能提升并发现关键 Bug：我的个人奇点时刻知名开发者 Taelin（@VictorTaelin）报告了一次他称之为「个人奇点时刻」的体验：Anthropic 的 Fable AI 在代码优化任务上，以数量级优势超越了他本人、Opus 4.8 以及一整群 GPT-5.5 智能体，实现了高达 1770% 的性能提升，并且在优化过程中还顺带发现了他自己代码里一个相当微妙的 Bug。这条推文引发了广泛讨论，因为它把「AI 代码优化能力超过资深开发者本人」这件事变得非常具体——不是某个 benchmark 上的分数对比，而是一次真实的、可验证的优化任务。阅读原文：BestBlogs。 CFO 的自白：为什么你的加薪变成了 GPU Peter Girnus（@gothburz）分享了一段来自某 CFO 的「自白」，揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑：花在人身上的每一块钱是当期费用（expense），会直接拉低利润率、受到市场审视；而花在 GPU 上的每一块钱则可以记为资本资产（capital asset），不会以同样的方式冲击利润表，也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下，会优先把预算投向算力而不是涨薪——这并非单纯的技术判断，而是财务报表结构带来的激励扭曲，也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文：BestBlogs。 "无招" 没变，但 AI 改变了公司和人才的权力关系晚点 LatePost 以钉钉 CEO 陈航（花名"无招"）因高压管理风格被阿里合伙人委员会直接换掉为切入点，分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名，曾要求团队早 9 点打卡、深夜巡楼查岗，甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议，但阿里内部一直没有针对性动作；这一次，一篇 7.5 万字的员工离职长文迅速传播后，阿里合伙人委员会在 6 天内罕见回应，直指钉钉的管理方式"不是阿里文化该有的样子"，不到 24 小时后陈航卸任 CEO。文章借此事件展开，探讨为什么在 AI 重塑生产力的当下，顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文：BestBlogs。 ## 补充阅读今天的候选内容里还有不少值得一看的角度，限于篇幅未能逐一展开，这里简单提一下： - 多智能体编排和协作平台是今天的一条隐藏主线——从 Claude Managed Agents 的托管编排，到阿里云 AgentTeams 的声明式协作模型，再到 Multica 的「4 人 + 几十个 Agent」实践，三者分别代表了「平台托管」「企业内部落地」「创业团队自建」三种不同的路径，适合关注智能体编排方向的读者对照阅读。 - 端侧推理优化（如 Qwen3-VL 的 SME2 提速）和云端智能体托管基础设施（如 Claude Managed Agents）看似是两个方向，但都指向同一个趋势：把"跑得动 AI"这件事的门槛持续往下压，无论是手机端还是企业基础设施。 - 关于 AI 对就业市场的影响，"决策-执行-交付三明治"模型和"CFO 的自白"可以放在一起读——前者从岗位需求结构的角度论证 AI 不会带来大规模裁员，后者从企业财务激励的角度解释了为什么算力投入比涨薪更"划算"，两者从不同角度解释了同一个现象的两面。 - 钉钉"无招"事件本质上是一个组织管理案例，但放在 AI 重塑权力关系的背景下读会更有意思——尤其是和 Multica 里"人是最慢的节点"的判断对照，能看到大公司和小团队在同一个趋势下走向了截然不同的应对方式：一边是用考勤和层级管理人，一边是用 Agent 团队去掉中间层、让 4 个人端到端做完所有事。 - 如果你既关心工程框架又关心组织设计，可以把今天的内容串成一条线读：harness 解决的是「AI 怎么干活才靠谱」，AgentTeams 和 Multica 解决的是「一群 Agent 怎么像团队一样协作」，而钉钉和 CFO 的两篇则提醒你，工程能力之外，组织和激励结构同样会决定 AI 红利最终流向谁。 ## 今日阅读路径如果今天时间有限，建议按以下顺序读： 1. 精讲二《AI 不缺智商缺纪律：一场 Harness 工程化实践》——这是今天信息密度最高、最具操作性的一篇，三层加载架构和 19 节点裁剪规则可以直接套用到自己的 AI 工作流里，读完能立刻上手改造。 1. 精讲一《智能体交互界面的演进：使用 Claude Managed Agents 进行构建》——和精讲二形成互补视角，了解平台层提供了哪些「托管基础设施」，帮你判断哪些事该自己搭、哪些事该交给平台。 1. 精讲三《Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架》——作为前两篇的「远景校准」，提醒你在投入工程化建设时，留意哪些能力可能很快被模型本身吸收。如果还有余力，再读一下「人是最慢的节点，还怎么管 AI Agent？」——它把今天所有关于工程化、协作平台的讨论，落回到「人在这个体系里到底该做什么」这个最终问题上。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译本期精讲聚焦智能体工程化：Anthropic推出Claude Managed Agents，将推理与执行解耦，独立Vault管理凭证，事件日志支持运行恢复，首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构（常驻入口层压至8K上下文）、dispatcher状态机及G1-G8门禁，用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架，独立创业公司窗口收窄。

ginobefun@hongming731 · 6月12日63

BestBlogs 早报 · 06-12 # Claude Managed Agents / Harness 工程化 / 模型吞脚手架 / Logan Kilpatrick / Gemini 3.5 Flash [1] ★ 精讲｜智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude Anthropic 推出 Claude Managed Agents，把智能体的「大脑」（推理循环）和「双手」（代码执行沙箱）彻底解耦，靠可恢复的事件日志连接两端：凭证统一存进独立的 Vault，绝不暴露给生成的代码，自托管沙箱还能让代码留在企业内网，首字延迟中位数降低六成、长尾降低九成以上，Notion、Sentry、Rakuten 等都已在生产环境跑通。来源：Claude Blog https://www.bestblogs.dev/article/8e6ddfdf [2] ★ 精讲｜AI 不缺智商缺纪律：一场 Harness 工程化实践一位阿里工程师复盘两个月的 AI Harness 演进：从把所有规则堆进 CLAUDE.md 导致「读完规则没脑容量读代码」，到三层加载架构 + dispatcher 状态机 + 文件交接 + G1-G8 门禁，再用 7 维确定性评分给每次改动打分，结论是「用更好的结构约束 AI，而不是用更多的字」。来源：阿里技术 https://www.bestblogs.dev/article/07b28cbc [3] ★ 精讲｜Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架 [视频] Google DeepMind 的 Logan Kilpatrick 在 Sequoia 访谈中提出「模型吞掉脚手架」：路由、执行环境这类原本搭在外层的工程能力正被模型本身逐步吸收，Gemini 3.5 Flash 的编程能力提升完全来自后训练；他认为随着基础模型不断「吃掉」周边脚手架，独立创业公司的出路只剩垂直领域的深度专精。来源：Sequoia Capital https://www.bestblogs.dev/video/568d29c [4] 为什么 AI 还没有取代软件工程师，而且也不会本文通过“决策-执行-交付三明治”模型论证 AI 不会取代软件工程师，解释了人类在决策和问责中的角色为何仍然至关重要。来源：AI as Normal Technology https://www.bestblogs.dev/article/28a90882 [5] 云原生 - AI Native 多智能体数字人架构实践本文介绍了阿里云基于云原生理念打造的 AI Native 多智能体数字人协作平台 AgentTeams，通过声明式 CRD 将组织结构与协作策略模型化，实现多 Agent 像团队一样协同工作，并分享了在研发、值班、开源维护等场景的落地实践。来源：阿里云开发者 https://www.bestblogs.dev/article/cb8e134b [6] 端侧 AI 提速 80%？如何让 Qwen3-VL 在手机起飞本文手把手演示如何利用 Arm SME2 指令集与 MNN 推理引擎，在支持 SME2 的旗舰手机上实现 Qwen3-VL-4B 多模态模型的高效部署，Prefill 阶段提速超 80%。来源：通义实验室 https://www.bestblogs.dev/article/2e22b643 [7] 人是最慢的节点，还怎么管 AI Agent？｜AI 跃迁者调研本文深度访谈 Multica 创始人张佳圆，揭示了一个 4 人团队如何通过 Agent 协作平台实现组织效率革命，并探讨了人在 AI 时代的新角色与思考边界。来源：腾讯研究院 https://www.bestblogs.dev/article/7bf0f7d2 [8] Fable AI 实现 1770% 性能提升并发现关键 Bug：我的个人奇点时刻 Taelin 报告称，Anthropic 的 Fable AI 在代码优化方面以数量级优势超越了他本人、Opus 4.8 以及一群 GPT-5.5 智能体，甚至还发现了他自己代码中的一个微妙 Bug。来源：Taelin(@VictorTaelin) https://www.bestblogs.dev/status/2064448425936994742 [9] CFO 的自白：为什么你的加薪变成了 GPU 一位 CFO 解释称，用 AI 投资取代员工加薪的决定纯粹是会计把戏：花在人身上的每一块钱是费用，而花在 GPU 上的每一块钱则是一项可以规避市场审视的资本资产。来源：Peter Girnus 🦅(@gothburz) https://www.bestblogs.dev/status/2064800166272512122 [10] “无招” 没变，但 AI 改变了公司和人才的权力关系本文以钉钉 CEO 陈航（无招）因高压管理被阿里合伙人委员会直接换掉为引子，深入分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。来源：晚点 LatePost https://www.bestblogs.dev/article/959001dd --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-12

译Anthropic推出Claude Managed Agents，将推理循环与代码执行沙箱解耦，凭证存入独立Vault，自托管沙箱支持内网，首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化，提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架，Gemini 3.5 Flash编程能力完全来自后训练。另，Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%；Fable AI实现1770%性能提升并发现关键Bug；此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

meng shao@shao__meng · 6月12日74

Claude Fable 5 首发一天后的 playbook：8 条共识、3 个陷阱，以及互联网怎么说 @mvanhorn 用 /last30days 扫了 865 条跨平台讨论、再结合自己实测后写下的首日实践总结。整理出社区在 24 小时内已经收敛出一套可复用的用法，以及一堆代价与陷阱。核心判断 Claude Fable 5 是一个高自主、高成本、偏规划编排的模型。首日共识很一致： · 给更难的目标，少给步骤 · 让它当指挥，不当苦力 · 免费窗口内把经验固化成 Skill，窗口关闭后靠便宜模型执行把它当 “更听话的 GPT” 用，大概率又贵又慢，还容易踩安全回退。 # 八条实践，逐条展开 1. 任务要更难，提示要更短官方口径是 aim higher：少说“第一步、第二步”，多讲终点。过度拆解的旧 prompt 反而会拉低质量。隐含能力变化：模型自主规划变强了，微管理变成负资产。同时别让它复述内部推理——容易触发拒绝。社区讽刺很到位：人人被教育要“瞄准神话级”，人人还是在做 Todo 和贪吃蛇——说明认知升级滞后于能力升级。 2. 设目标，不设路径；但必须设刹车 /goal 代表工作流从任务清单 → 持续对齐高层目标。Claude Code 团队自己也这么用。代价：它会一直干，直到你叫停。长任务必须写清：预算上限、时间上限、或明确的“完成条件”。否则不是智能，是失控。 /goal make 1 million dollars 是社区对这条逻辑的幽默推演。 3. 编排者，不是执行者 · 规划 / 拆任务：Fable · 实现：Sonnet · 测试 / 验证：Haiku 验证用新上下文的 agent，通过才提交——这是首日最务实的工程模式。 Stripe 50M 行 Ruby 一天迁移，是官方背书的上限案例；无 spend limit 跑 subagent 则是下限警示。能力真，账单也真。 4. Effort 旋钮：Medium 可能最适合 · Medium 的 Fable 有时能打过 High/Max 的 Opus，且 token 更少 · 严肃 agent 工作可钉在 xhigh；ultracode 极耗额度 · 付费计划里 Fable 按双倍用量计费结论：不是越强越好，而是匹配任务复杂度。用 Fable 做常规活，像请外科医生修指甲。 BridgeMind 一天 7 亿 token、三套 Max 订阅打穿月限额——能力认可与成本恐惧并存。 5. 两条隐形降级线安全回退：触发分类器会静默切到 Opus 4.8，输出质量突然变差时，先怀疑路由而非模型变笨。误杀案例（hello、cancer、发酵食品）说明假阳性是实操问题，不是段子。可引导性弱：Arena 数据——任务成功 #1，可引导性 #17。能做的事很强；不想做时很难拧。约束要写得像承重墙，不能当建议。系统提示泄露与越狱同日出现，说明防护与能力赛跑，用户侧不能假设“官方护栏 = 你的护栏”。 6. 视觉输入是首日被低估的杠杆截图 → 可运行应用，比文字描述 UI 有效得多。像素优于形容词。同时反差也好笑：神话级算力用来清邮箱——说明真实刚需往往是枯燥自动化，不是 demo 炫技。 7. 喂业务上下文，别追 demo 高杠杆用法就一段 prompt：讲清业务（卖什么、客户、栈、团队、瓶颈、上季度数字），让它列 8 件本月最高杠杆工作并立刻推进第一件所需的数据/权限。 Demo（贪吃蛇、克隆 Notion）传播广；业务诊断式 prompt 更可能产生可重复价值。 8. 免费期是“蒸馏窗口”，不是无限狂欢 Pro/Max/Team 免费到 6 月 22 日，之后约 $10/M 输入、$50/M 输出（约为 Opus 两倍）。最佳策略：正常工作中遇到 Fable 的巧解，让它写成 Agent Skill 留存——两周免费换长期能力资产。企业侧：微软因 30 天数据保留从内网 Copilot 下架 Fable——能力与合规张力，首日已显现。 Claude Fable 5 Playbook · 说清结果，删掉保姆步骤 · /goal + 硬性停止条件 · Fable 规划 → Sonnet 写 → Haiku 验 · 先试 medium effort · 质量骤降先查是否被 safety 路由 · 截图优先 · 跑一次业务 prompt · 6/22 前把解法蒸馏成 Skill

译社区基于865条讨论与实测总结：Claude Fable 5高自主、高成本、偏规划编排。核心共识：给更难目标、少给步骤；用Fable规划→Sonnet实现→Haiku验证；免费窗口（截至6月22日）内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High；付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8；视觉输入（截图→应用）比文字更有效。最佳策略：跑一次业务prompt诊断，把解法蒸馏成Skill留存。

Rohan Paul@rohanpaul_ai · 6月12日67

Dario Amodei's new interview on Bloomberg: The scary part is not when AI does 90% of the job. It is what happens when it learns the last 10%. "We’re already starting to see the beginning of it. There may be some people that it’s not making more productive, and it’s better for the AI to just do the whole thing." And on that topic Claude Code creator Boris Cherny says: "it's very uncomfortable. Artificial intelligence is this force that is far bigger than we are" --- @bbgoriginals From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示，AI 的可怕之处不在于它完成90%的工作，而是学会最后10%的时候。他指出，对于某些人来说，AI 可能不会让他们更高效，不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称，这种感觉非常不舒服，AI 是远比我们强大的力量。

Ethan Mollick@emollick · 6月12日61

This is an interesting test, and the frontier models (GPT-5.5 Pro Extended, Claude 5 Fable Max) do fail. They refuse to turn the "three words" into "four" if that fits better Prompting the AI to act like a translator surfaces the problem, but it still avoids changing the wording

译Ethan Mollick 指出，GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto‑Trombetti 翻译测试中失败。该测试要求将“Solo 3 parole: non sei solo”译为英语，同时将 meta‑linguistic 声明从“3 parole”更新为“4 words”（正确译文：“Just 4 words: you are not alone”）。但前沿模型拒绝修改措辞，即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为，Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试，说明 LLM 擅重组已知知识但缺乏真正理解，AGI 仍遥远。

Chubby♨️@kimmonismus · 6月12日13

Anthropic rn

译Anthropic 现在。

elvis@omarsar0 · 6月12日74

good. now let's undo the nerf stuff as well

译good. now let's undo the nerf stuff as well （引用推文：Anthropic 在遭受强烈反对后，撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见，并为此前错误权衡道歉。）

elvis@omarsar0 · 6月12日59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR，花费 $250，认为不值，更倾向小步骤。Elvis Saravia 认同，表示自己用 Opus 4.8 做规划、GPT-5.5 做执行，并将任务拆解成更小步骤能显著提升质量。他认为动态工作流（dynamic workflows）的重要性被大多数人低估了。其日常仍使用 Cursor AI。

向阳乔木@vista8 · 6月12日70

想到一个特别有雄心的Claude Fable 5 任务! 做一个在线版Photoshop。需求文档 AI 写好了，感兴趣的可以发过去试试。 PRD见评论

Rohan Paul@rohanpaul_ai · 6月12日82

WSJ: OpenAI is considering deep price reductions as competition with Anthropic intensifies. Anthropic is pressuring OpenAI because its strongest growth is coming from developer and coding workflows, specially with Claude Code, where users can generate huge token volume every day and quickly make Claude part of their normal work. OpenAI is still the bigger consumer brand, but in this fight the valuable prize is not casual chat users, it is enterprise teams paying metered bills for coding agents, automation, and internal tools. The difference is that Anthropic seems to have a sharper wedge in high-spend technical work, while OpenAI has to defend ChatGPT’s broad lead and stop Claude from becoming the default tool inside companies. --- wsj. com/tech/ai/openai-considers-drastic-price-cuts-anticipating-war-for-users-with-anthropic-9b8c178e

译WSJ 报道，OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流，Claude Code 消耗大量 token，已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大，但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时，OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版，将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用，改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex，目标实现 Codex 工程负责人所说的“个人智能体”。

Yuchen Jin@Yuchenj_UW · 6月12日54

Claude Fable 5 feels good so far, but I don’t see it as a huge leap over GPT-5.5 or Opus 4.8 yet. My biggest complaint: old AI research papers/blogs + basic questions often trigger an auto-downgrade to Opus 4.8. Anthropic said last night there would be no more silent model switches (good), but please don’t nerf basic AI research or bio questions.

译Claude Fable 5 到目前为止感觉不错，但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。我最大的不满：旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换（很好），但请不要削弱基本的AI研究或生物问题。

Chubby♨️@kimmonismus · 6月12日62

Anthropic makes more revenue than any other AI model company right now, and it still can't get its new data centers funded on its own. The Information report says lenders want Google to guarantee the lease payments first. This is the same Google that helps design Anthropic's chips and is selling it around $200 billion in computing power. Odd position for the revenue leader to be in.

译Anthropic 目前营收超过任何其他 AI 模型公司，却仍无法靠自身获得新数据中心的融资。《The Information》报道称，贷款机构要求 Google 先担保租赁付款。正是这家 Google，协助设计 Anthropic 的芯片，并向其出售约 2000 亿美元的计算能力。营收领先者竟处于这种尴尬境地。

Ethan Mollick@emollick · 6月12日48

Fable's attempt to complete Kublai Khan. Better, though no Coleridge: https://claude.ai/public/artifacts/d7d3351f-5ad5-4d73-a644-4a1426abe558 The most interesting thing is that it thought for 10 minutes & the thinking trace is full of pretty complicated (seeming?) musings about Coleridge's intent. A little literal, though.

译Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》，基于PorlockBench任务：假设“波洛克的人”未出现，补全诗歌并延续主题。Fable用时10分钟思考，思维痕迹充满对柯勒律治意图的复杂分析，但结果仍显直白，未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步，但基准尚未饱和。

宝玉@dotey · 6月12日53

以前推理强度我都无脑 Max，现在用 Fable 5 就得斟酌着选择，不敢随便选 Max，一方面它足够聪明不需要，另一个是时间长 token 消耗太大！另外 Fable 5 有个优点也是缺点，就是特别喜欢验证，各种验证，结果固然是好，但是时间耗得很长不一定合算。

译用户分享 Claude Fable 5 使用体验：以前无脑选 Max 推理强度，现在则不敢随便选，因为模型足够聪明无需过强推理，且时间长、token 消耗大。Fable 5 还喜欢反复验证，结果虽好但耗时长不一定合算。引用推文指出，Fable 5 的强项之一是思考推理时间很长，曾有一次思考 15 分钟才开始行动。

向阳乔木@vista8 · 6月12日46

发现Claude Fable 5强的地方之一，可能是模型思考推理的时间足够长。刚提了个想法，它思考15分钟才开始行动，牛逼。

Ethan Mollick@emollick · 6月12日54

Two things are true: (1) Anthropic (or parts of it) are absolutely and sincerely worried about the misuse of Mythos-class models & have put in excessive safeguards until they are confident it will not be misused (2) They have not succeeded in explaining/convincing people of this

译两件事是真的： (1) Anthropic（或其部分成员）绝对且真诚地担忧 Mythos 级别模型被滥用，并设置了过度防护措施，直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点

AYi@AYi_AInotes · 6月11日71

Fable 5是真的厉害真的好用，但也真的贵啊，今天直接干掉$1000+😭

译用户分享 Claude Fable 5 体验：仅靠一句指令“给你自己做个落地页，自由发挥，要2026最新设计趋势，要彩蛋”，Fable 5 在几分钟内自动生成完整单文件 HTML，无需任何修改。它主动搜索 2026 设计趋势、调整配色和动效，并偷偷藏了 3 个彩蛋。用户惊叹其代码质量和文笔，但当天因使用 Fable 5 耗费超过 $1000，称“真的贵”。