Claude Fable 5 / Mythos 5 wins everywhere. I thought Fable 5 was just a nerfed Mythos Preview, but it’s literally better. SWE-Bench Pro: Fable 5: 80.3%, GPT-5.5: 58.6%. And the price is only 2x Opus 4.8: $10/input MTok, $50/output MTok. I don't think GPT 5.6 can beat this...

译Claude Fable 5 / Mythos 5 全面胜出。我以为 Fable 5 只是弱化版 Mythos Preview，但它实际更强。SWE-Bench Pro：Fable 5：80.3%，GPT-5.5：58.6%。而且价格仅为 Opus 4.8 的 2 倍：$10/输入 MTok，$50/输出 MTok。我认为 GPT 5.6 无法超越这个成绩。

Chubby♨️@kimmonismus · 6月10日68

"Fable 5 requires usage credits. Update Claude Code to the latest version to learn more."

译Fable 5 需要使用积分。请将 Claude Code 更新至最新版本以了解更多。

🚨 AI News | TestingCatalog@testingcatalog · 6月10日60

ANTHROPIC 🔥: Claude Fable 5 (Mythos) is being prepared for the upcoming release on Google Cloud Platform. Really soon 👀

译ANTHROPIC 🔥: Claude Fable 5 (Mythos) 正准备在谷歌云平台发布。很快了👀

Rohan Paul@rohanpaul_ai · 6月10日69

Anthropic Is dropping a public version of Mythos today: codename "Fable" - per The Information It’s costly, at 2x the price of Opus, but maybe still cheaper than what people expected after seeing the first Mythos pricing at 5x Opus. - It will come with strong safety limits, and it will not be as open on cyber use as the restricted preview given to Project Glasswing partners. - It is expected to be much stronger at long-running, multi-step tasks and agent-style workflows. Context on Mythos: - Anthropic introduced Claude Mythos Preview in April 2026. At launch, it wasit’s most powerful frontier model, especially strong in coding, reasoning, and cybersecurity, including finding and exploiting zero-days. - It was not released publicly at first because of safety issues. Only selected Project Glasswing partners received access for defensive cybersecurity, and they have reportedly found thousands of major vulnerabilities.

译Anthropic 今日发布 Mythos 的公开版本，代号“Fable”。其成本约为 Opus 的两倍，低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制，在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守，且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出，是当时最强前沿模型，尤其擅长编程、推理和网络安全（含发现零日漏洞）；因安全问题未公开，仅限 Project Glasswing 合作伙伴用于防御性网络安全，目前已报告发现数千个重大漏洞。

🚨 AI News | TestingCatalog@testingcatalog · 6月9日70

ANTHROPIC 🔥: Claude Fable (Mythos) is about to cost twice as much as Claude Opus according to The Information. Soon 👀

译Anthropic 推出 Claude Fable，这是原始性能旗舰 Mythos 的阉割版，定价为 Claude Opus 的两倍。此前 Mythos 初始定价曾传闻达 Opus 的 5 倍，Fable 版本将价格门槛拉低。该模型于今日正式发布。

Chubby♨️@kimmonismus · 6月9日77

Confirmed, Claude Mythos will be unveiled in the next few hours

译确认，Claude Mythos 将在接下来几小时内揭晓。 [引用 @steph_palazzolo]：独家：一个名为 Claude Fable 的精简版 Mythos 今天推出。它价格昂贵——是 Opus 的两倍——但或许不像人们从最初 Mythos 定价（Opus 的 5 倍）所想的那样昂贵。更多内容及 Apple WWDC 见 AI Agenda： https://www.theinformation.com/newsletters/ai-agenda/anthropics-mythos-coming-today-apple-pursues-modest-goals-siri-revamp

Boris Cherny@bcherny · 6月9日70

Just landed nested subagent support in Claude Code Starting to experiment more with agents kicking off agents as a way to better manage context. Capped at depth=5 to start, going out in today’s release. Lmk what you think!

译刚刚在 Claude Code 中实现了嵌套子智能体支持。开始更多实验智能体启动其他智能体，以便更好地管理上下文。初始深度上限为 5，将在今天的发布中推出。欢迎反馈！

Rohan Paul@rohanpaul_ai · 6月9日83

OpenAI's latest official blog says the world may need a way to coordinate "slowing frontier development when needed."

译据 WSJ 报道，OpenAI 已向 SEC 秘密提交 IPO 草稿（保密 S-1），可在不公开收入、亏损、客户构成等敏感数据情况下启动审查。Anthropic 上周已提交类似文件。OpenAI 最新官方博客则指出，世界可能需要一种机制“在必要时协调放缓前沿开发”。这不仅是模型竞赛，更是实验室间为下一代 AI 基础设施融资的资本竞赛。

小互@xiaohu · 6月9日63

小道消息：Anthropic 将于今晚发布其最强 AI 模型Mythos...

Chubby♨️@kimmonismus · 6月9日58

Claude Mythos will be released today (June 9th), according to leaks everywhere. The interesting question is whether they'll also update Sonnet or Haiku. Not that Mythos isn't enough for me, I'm just curious why the smaller models are currently getting so little attention. Anyway, it will probably be called Claude-5-fable.

译据多方泄露，Claude Mythos 将于今日（6月9日）发布。有趣的问题是，他们是否也会更新 Sonnet 或 Haiku。不是说 Mythos 对我而言不够用，我只是好奇为什么目前小模型受到的关注这么少。总之，它可能被命名为 Claude-5-fable。

Chubby♨️@kimmonismus · 6月9日58

Claude Mythos is conning tomorrow!! Prepare yourself friends. It’s happening!!

译据消息，Anthropic 计划明天发布 Mythos 公开版。该版本将配备实质性护栏，权限不如 Project Glasswing 合作伙伴可访问的版本宽松，但在长周期、多轮任务上表现将大幅提升。准备好，朋友们，就要来了！

歸藏(guizang.ai)@op7418 · 6月9日54

难道说？我感觉他们能做出来强制 kyc 才让用这种操作

译据报道，Anthropic 将于明天发布新 AI 模型“Mythos”。主推文猜测这可能伴随着强制 KYC 措施。

🚨 AI News | TestingCatalog@testingcatalog · 6月9日66

ANTHROPIC 🔥: Claude Mythos is planned to be released as Claude Fable 5 according to checkpoints detected by Dev Mode, Hacker News reports and Sources. Anthropic is also hosting its 3rd developer event in Japan tomorrow. Soon? 👀

译ANTHROPIC 🔥: Claude Mythos 计划作为 Claude Fable 5 发布，根据 Dev Mode 检测到的检查点、Hacker News 报道和消息源。 Anthropic 还将于明天在日本举办第三届开发者活动。快了？👀

meng shao@shao__meng · 6月9日25

https://youtu.be/kRgdkOw82F0?si=05P4WsdlGDVskw7c 据说发这个视频会被 A 厂举报侵权，删除视频，偏要试试看 😂

ginobefun@hongming731 · 6月9日32

和 @puliandc 讨论了好几轮用 Claude Code 和 Claude Design 设计和讨论然后用 Codex Goal 模式搭建。明晚争取上线 BestBlogs 世界杯专刊期待一起用 BestBlogs 看世界杯⚽️📖！

译洪明 (@hongming731) 透露，经过与 @puliandc 多轮讨论，他们使用 Claude Code、Claude Design 进行设计和讨论，并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊，邀请用户一起用 BestBlogs 看世界杯。

Berryxia.AI@berryxia · 6月9日54

如果你遇到过这个问题，可以试试看！刚刚使用 Claude 去登录账号，因为当时创建账号时使用的是 Apple ID 虚拟邮箱（一长串的邮箱），遇到了一些登录问题。在手机端是可以正常显示订阅并使用的，但在电脑端登录时，无法直接选择苹果的虚拟邮箱进行登录。经过“群友小耳朵 ”的分享，解决方法如下： 1. 在设置里把那个虚拟邮箱地址直接复制下来。 2. 在电脑端选择“使用邮件登录”，然后把这个邮箱地址粘贴进去。注意这个邮箱是根据你当时 Apple ID 的设置创建的，不能直接用原始邮箱。 3. 复制进去后，系统会向你当时的 Apple ID 邮箱发送一个登录链接（不是验证码）。 4. 在电脑上打开那个链接进行登录，就可以正常使用了。今天把这个问题分享出来，希望对大家有用😄 如果你遇到和我一样的问题，可以试试，并且也说明可以使用这个方法创建claude账号😄

译Claude 用户 Berry Xia 分享了一则登录技巧：如果用 Apple ID 虚拟邮箱（一长串随机地址）创建过 Claude 账号，手机端可正常使用，但电脑端无法直接选择该邮箱登录。解决方法：在设置中复制虚拟邮箱地址，在电脑端选择“使用邮件登录”并粘贴该地址，系统会向原始 Apple ID 邮箱发送登录链接，点击链接即可完成登录。该方法也可用于注册 Claude 账号。

ginobefun@hongming731 · 6月9日33

尝试给 http://BestBlogs.dev 开了一个英文新号，会分享一些精选博客、文章和创作者内容。我的个人号还是会留给大家看看我自己的构建、开发和探索思考。喜欢发现好内容的朋友，可以顺手关注一下 @BestBlogsDev

译洪明为内容推荐平台BestBlogsDev开设英文新号，分享精选博客与创作者内容，个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进：从简单的编码助手成长为由数千自主agent组成的网络，可协作测试、修复、部署代码，无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变，被视为新工程范式的诞生。

Ethan Mollick@emollick · 6月9日58

Both Anthropic and OpenAI mention the possibilities of slowing AI development in their latest "what comes next" in AI posts, but say they need to be an action coordinated across the entire world using as-yet-unidentified methods.

译Anthropic和OpenAI都在它们最新的“接下来是什么”AI展望中提到了减缓AI发展的可能性，但表示这需要全球协调行动，并使用尚未确定的方法。

AYi@AYi_AInotes · 6月9日77

Claude Opus 4.8 是目前最好的编码模型，这件事应该没啥太大争议了，我自己跑了这么久体感也是这样。 Cognition（Devin 的公司）刚发布的 FrontierCode 基准测试，彻底改变了 AI 编程能力的评判标准：不再只看“代码能不能跑过测试”，核心看看“维护者会不会愿意把这段代码合并进真实项目”。以前的基准有多离谱？（黑人问号脸.jpg）以前最火的评测叫 SWE-Bench，还有 TerminalBench 等， • 模型只要让测试通过就算“解决”了。 • 但 METR_Evals 研究发现：超过一半通过测试的代码，其实是不可维护的垃圾代码（slop）——风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge（合并）。结果就是：基准分数虚高，实际落地时却一塌糊涂，说白了就是让模型学会了考试作弊，而不是真正写好代码🤣 Opus 4.8最强，但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词：最好的模型，离写出别人愿意维护的代码，还有很远的距离。以前的基准只看测试过没过，模型学会的是刷分，而不是写代码。有人查过，超过一半通过测试的 PR 其实是不可维护的垃圾， FrontierCode 换了一个完全不同的问法，二十多个顶级开源维护者，手搓了一百五十个任务，每个任务搭进去四十多个小时。不看测试过没过，主要看代码风格、改动范围、回归风险、测试本身写得好不好，三千多条规则盯着，最后只问一句：如果你是维护者，这个 PR 你合不合。 Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%，其他模型大多在 1% 到 5%。 13.4% 是第一名，但这个第一名意味着最难的那类真实任务里，十次里有将近九次，它的代码经不起一个有经验的维护者看一眼。这就是这个基准最诚实的地方，它没说 Opus 4.8 不行，只是把尺子换了，第一名的成绩单看起来也完全不一样了，以前的尺子量的是你能不能跑，现在的尺子量的是我愿不愿意跟你共事，而这是两件事。

译Cognition 发布 FrontierCode 基准测试，重新定义 AI 编程评估：由 20 多位顶级开源维护者手工制作 150 个任务（每个耗时 40+ 小时），依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%，GPT-5.5 为 6.3%，其余模型 1%–5%。这意味着即便最强模型，近九成代码仍无法通过有经验维护者审核。

meng shao@shao__meng · 6月9日68

Claude Code 上线一周年：演进与方法论回顾来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu，从一年前首次内部 demo 只有两个 Slack 点赞，到现在绝对主流 Coding Agent，这一年 Claude Code 到底做对了什么？ https://www.youtube.com/watch?v=Hth_tLaC2j8 # 两条底层方法论 1. 错误即资产：写入规则，而非口头纠正 Boris 的核心习惯：每次 Claude 犯错，不直接说「下次别这样」，而是写入 CLAUDE.md、Skill 或类似持久化机制。逻辑是：口头纠正只影响当前会话；规则沉淀后，agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。 2. Verification（验证）≠ 单元测试多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化，不是 agent 时代的重点。真正的 verification 是：agent 能否亲自「跑起来」验证结果。 · 早期案例：让 Opus 4 写完功能后，在 bash 里启动另一个 Claude CLI 自测。 · 现在：iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践：桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界；若 staging 异常，先读 Slack 判断是否环境问题；修完后更新 Skill，形成闭环。要点：验证能力往往需要针对具体产品定制，无法一键通用。 # Loops/Routines：从「人用工具」到「系统替人值守」 Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。典型案例： · 某工程师为 Voice Mode 设 routine：监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine：5 小时未响应的 bug 自动修复，易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug，还没动手，Claude 提示「另一个 Claude 已修好」。组织影响： · 代码评审、CI 修复、rebase 等琐事，团队成员已很久没亲手做。 · 多个人的 Claude 并行工作，形成「隐形协作网」。重点：把工程运维流程产品化、自动化。 # Auto Mode：取代 Plan Mode 的默认选择 Boris 明确表示：Plan Mode 已基本不用，全面切到 Auto Mode。原因： · Opus 4 ~ 4.5 仍需显式规划；从 4.6、尤其 4.7 起，模型已能自主规划。 · Auto Mode 的价值是：启动 agent 后即可转向下一个任务，无需盯屏点确认。安全设计的反直觉结论：人工逐条审批 99% 都会点「是」的权限提示，反而更危险；Auto Mode 用独立分类模型筛风险，人只关注被拦截的少数异常，整体更安全。上线前流程： · 收集数千条 agent 轨迹 + 权限请求，训练分类器； · 红队 prompt injection、渗透测试； · 建 eval，确保已知攻击全部被拒； · 内部团队继续攻击、迭代。 Boris 认为：「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通，实测却效果很好。这反映基于大模型构建产品时，许多旧工程直觉需要重写。 # 组织变革：AI 必须成为流程中心 Boris 引用 90 年代 HBR 案例：PC 普及初期生产力未显现，因为企业只是把电脑「放在旁边」，流程仍是纸笔+文件柜。真正释放价值，需要把电脑置于业务流程中心，淘汰旧媒介。类比到 AI： · Anthropic onboarding 不问人，问 Claude； · 提问、写代码、CR、安全审查、填表，均经 Claude/Co-Work； · 领先企业正在把 AI 放到同样位置。与 PC 转型需 10–15 年不同，AI 转型更快，因为： · 工作已高度数字化； · Claude 能操作电脑、写代码、跑代码。角色融合： · 产品、设计、DevRel 都在写代码、提 PR； · 工程师端到端负责：构思 → 实现 → 对接法务/市场/安全 → 发布； · 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。 · 未来不是「人人 PM」或「人人工程师」，而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。 # 多 Agent 时代的工具形态从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App（自动 worktree）。意外变化：Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode，边走边看 agent，现场聊出新想法即开 agent 实现，无需回电脑。这说明：工程师的主战场正从 IDE 转向 agent 编排界面。 # Context Minimalism（上下文极简主义）技术话语的演进轨迹： · Sonnet 3.5 时代 → Prompt Engineering · Opus 4 时代 → Context Engineering · 当前模型 → Context Minimalism 原则： · 最小 system prompt、最少工具集； · 只给模型「拉取上下文的能力」，不塞满上下文； · 过多上下文 ≈ 微观管理，限制模型找更优路径； · Harness 本身也在变瘦，把 token 空间留给用户意图。这与一年前「精心构造 mega prompt」的做法形成鲜明对比。 # 对未来的判断团队预判： · Agent 运行更久、更自主； · 很少只跑 1 个 agent，常见是数十、数百、数千； · 一年后的产品形态很可能与今天完全不同； · 创新将更多来自用户社区，而非官方闭门设计。值得肯定的洞见： · Verification 定义准确，切中 agent 工程要害； · 「错误写入规则」是可复制的工程纪律； · Auto Mode 安全思路有实证支撑，不是空喊； · 组织变革类比有历史参照，不过于浪漫化。需保持审慎之处： · 发言者身处 Anthropic 内部，描述的是理想态实践，外部企业落地节奏未必相同； · 「财务用 Claude Code 做预测」等案例缺少可验证细节； · Routines 全自动 merge 依赖「易验证」边界，复杂系统风险需自行评估； · 「角色融合」「手机写代码」更像前沿团队样本，非行业普遍现状。

译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论：每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正；Verification指agent亲自跑起来验证（如启动模拟器、computer use测试）。Auto Mode取代Plan Mode，用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维（如监听GitHub bug自动提PR）。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行，产品形态将巨变。

Nathan Lambert@natolambert · 6月9日8

I am confidentially not joining Anthropic

译我保密地不会加入 Anthropic。

Claude@claudeai · 6月9日63

Final stop: Tokyo. Register to hear directly from the teams behind Claude: http://claude.com/code-with-claude/tokyo

译最终站：东京。快来注册，直接聆听 Claude 团队分享：http://claude.com/code-with-claude/tokyo

ginobefun@hongming731 · 6月9日67

http://x.com/i/article/2064136850370101248 # BestBlogs 早报 · 06-09｜Claude Code 自主化、循环工程、阳萌安克在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-09 ## 导语当 AI 编程工具从「辅助」跃升为数千 Agent 自主运转的工作流，工程师的角色也随之深刻重塑。本期围绕这一转折精选三篇值得细读的内容：Claude Code 一周年的第一手复盘，揭示 Auto Mode 如何让权限审批退出历史舞台；Boris Cherny 的「循环工程」，重新定义工程师的核心职责；以及阳萌历时 4 小时的长访谈，以安克 15 年经验探讨 AI 原生组织与第三类公司的可能性。三篇合读，或许能让你看清这个行业正在拐向哪里。今日早报共收录 3 篇精讲、7 篇速览、6 篇补充阅读，来源涵盖 Anthropic 官方、Elevate 技术博客、商业访谈播客等多个渠道。在 AI 加速重塑软件工程与组织结构的当下，这期内容提供的不只是工具层面的参考，更是关于「工程师身份如何演变」与「传统企业如何自我重构」的思考材料。 ## 精讲一：Claude Code 一周年复盘：从辅助写代码到自主智能体工作流一年前，Claude Code 作为一款辅助工程师完成独立小任务的工具首次亮相。今天，它已演进为一个由数千个自主 Agent 动态协作、形成深度组织树状结构的庞大生态系统。这次 Anthropic 工程团队的第一手复盘，呈现了这场转变背后最关键的三个维度。验证范式的根本性变化传统软件开发中，验证手段以单元测试、类型检查和 Lint 工具为主，它们作用于静态参数。然而当 Agent 开始自主运转后，验证的边界必须扩展到完整的运行时循环：Agent 自主在沙箱中启动独立环境（本地桌面应用或本地服务器实例），通过 Computer Use 能力点击界面来测试边界案例，并在发现 bug 或破坏性变更时自动修正方案、验证通过后再推送补丁。这不只是工具层面的迭代，而是对「什么算作验证完成」这一基本问题的重新定义。人工审批每一条终端调用的模式，在这种规模下已经彻底无法运作。当 Agent 网络中同时运行着数百乃至数千条工作流时，人类根本无法逐条处理权限请求，而注意力一旦分散，反而制造了系统性的安全盲区。 Auto Mode 与模型驱动安全早期自主 Agent 开发高度依赖明确的操作规划文件，以及不断弹出的权限确认提示。工程师需要逐条批准或拒绝每一个工具调用。这种模式有一个深层缺陷：当 99% 的请求都是安全的时候，人类注意力会分散，反而制造了系统性风险。随着 Claude 4.6 和 4.7 的推出，Auto Mode 取代了这一模式。其核心机制是：用专门的路由与分类模型替代人工逐条审批，将所有调用通过对齐和安全分类器过滤，让人类注意力只聚焦在异常情况上。为了安全上线 Auto Mode，团队对复杂的多步提示注入向量进行了大量红队测试，建立了严格的内部评估指标，以确保恶意代码库修改能被自动拒绝。这个转变的本质，是把「人作为每一步的守门员」改为「人作为系统的设计者与边界的监督者」。两者的权力不同，责任也不同——后者要求工程师对分类器本身的质量和覆盖范围有深度理解。从实践角度看，这意味着红队测试、评估集设计、异常模式识别，这些原本属于安全团队的工作，开始向产品工程师渗透。组织边界的加速消融随着 AI 承担越来越多具体的开发工作，科技公司内部传统的职能边界正在瓦解。产品经理、视觉设计师、数据科学家、财务团队——这些人正在独立部署代码调整、生成运营原型、直接修改生产代码库。这一演进与 1990 年代企业部署个人电脑的过程相似。真正的生产力变革，只有在彻底抛弃传统纸质流程并将计算平台直接置于所有日常企业任务核心时，才会发生。复盘指出，目前最受益于 Claude Code 的团队，往往不是那些「用 AI 加速现有流程」的团队，而是那些「重新设计流程、让 AI 成为中心节点」的团队。这也意味着评估一个团队是否真正进入 AI 原生工作模式，不能只看工具使用频率，而要看他们是否已经开始重新分配「谁负责判断、谁负责执行」这个核心问题的答案。如果你想深入理解 AI 工程范式正在经历怎样的转移，这是目前最权威的第一手视角。阅读原文：Claude Code 一周年复盘：从辅助写代码到自主智能体工作流 ## 精讲二：循环工程「循环工程」是一个正在快速形成的新范式，其核心命题是：不要再当那个提示 Agent 的人，而是去设计能自动提示 Agent 的系统。 Addy Osmani 在这篇文章里引用了两段引发广泛讨论的原话。Claude Code 负责人 Boris Cherny 说：「我不再直接提示 Claude，我的工作是写循环。」创业者 Peter Steinberger 则说：「你不应该再提示编程 Agent 了，你应该设计能提示 Agent 的循环。」这两句话的意思高度一致：工程师的价值已经从「如何精准表达需求」迁移到「如何设计自运转的系统」。这不是一个工具能力变化，而是工程师身份认知的迁移。循环的五个构成要素 Osmani 拆解了一个循环所需的五个核心模块，Claude Code 和 Codex 都已具备： 1. 定时自动化（Automations）：循环的心跳。按时间表自动触发，完成发现和分类工作，不需要人工介入。两个产品里的定时任务能力实现名称不同，但功能本质相同——让系统自己找到需要做的工作。 1. 并行工作树（Worktrees）：让多个 Agent 并行工作时不互相干扰的隔离机制。没有 Worktrees，两个 Agent 会在同一个代码分支上互相覆盖对方的改动，循环就此失控。 1. 技能知识沉淀（Skills）：把项目知识写下来，避免 Agent 每次都只能靠猜测。这是把「只有你知道」的上下文转化为「Agent 也知道」的结构化输入。 1. 插件与连接器（Plugins and Connectors）：把 Agent 接入你已有的工具链——GitHub、Linear、Slack、数据库。循环需要读取现实，也需要把结果写回现实，连接器是这个双向通道。 1. 制作者与验证者分离的子 Agent（Sub-agents）：一个 Agent 负责提出方案，另一个负责检验——制造者与审查者天然分离。这是循环里内置的质量门禁，防止单个 Agent 的错误在无人知晓的情况下蔓延。第六个要素同样关键：外部记忆。一个 Markdown 文件、一块 Linear 看板——任何存活于单次对话之外、能持久记录「完成了什么、下一步是什么」的载体。Agent 会遗忘，但代码仓库不会。这个道理看起来过于简单，但它是所有长期运行的 Agent 依赖的同一个技巧。「认知投降」的警示 Osmani 没有止步于赞美。文章里有一段话值得反复咀嚼：验证的责任始终在人，「认知投降」会让循环反而侵蚀工程质量。当你把「循环跑完」等同于「任务完成」时，问题就开始积累。循环可以高速运转，但如果你不理解它在做什么、不设计合适的验证节点，它只会更快地把错误放大到整个代码库。你仍然是工程师，你的工作是设计一个值得信任的系统，而不只是按下启动键。这篇文章的价值不在于介绍工具，而在于它重新定义了一种工作身份：「循环工程师」不是那个让 AI 帮自己写代码的人，而是那个设计 AI 如何写代码的人。阅读原文：循环工程 ## 精讲三：对阳萌的 4 小时访谈：消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的这次 4 小时访谈，是近年来少见的系统性商业复盘。阳萌 1982 年生人，2011 年开始创业，如今掌舵一家市值超过 600 亿人民币的科技企业。这场对话横跨 15 年创业历程，从战略选择到 AI 时代的组织变革，信息密度极高。从「浅海」到「深海」的战略演进安克最初以充电品类切入，在消费电子这个以「速生速死」著称的赛场上完成多品类扩张。阳萌坦承，早期的成功很大程度上依赖直觉和对时机的感知——他把这个阶段比作打游戏时选择「Easy 模式」：在蓝海市场，凭借直觉就能赢。但市场饱和之后，他开始主动选择「Hard 模式」，转向系统化的「深海」作战。这意味着从品类跟随者变成品类定义者，从「五星品质、适度溢价」的路线攀向「七系极致创新」——投入更长的研发周期，打造竞争对手无法快速复制的差异化能力。这种转变背后，是对「护城河靠什么构建」这一问题的深度追问。在消费电子行业，一旦停止创新，品类溢价会被供应链快速抹平。「第三类公司」与创造者平台愿景访谈中最具前瞻性的部分是阳萌对安克长远定位的阐述。他提出「第三类公司」的概念——既非纯粹的硬件公司，也非纯粹的软件公司，而是能在硬件与软件之间建立生态闭环的「创造者平台」。这个愿景与安克正在推进的多个品类扩张方向高度呼应：从充电宝到耳机、投影仪、智能家居，安克的每一次品类扩张都是在测试同一个问题——消费者愿意在这个品类上信任一个非传统品牌吗？ AI 组织革命：人才与价值重新分配在 AI 这个变量上，阳萌的思考比大多数传统企业家更为具体。他着重探讨的不是「用 AI 提效」这样泛泛的方向，而是打造「AI 原生组织」——一种从底层重塑人才结构与价值分配体系的变革。他认为，AI 时代对人才的要求会发生根本性变化：能与 AI 协同工作、能从 AI 输出中提炼判断的人，和那些仍在处理可被自动化的重复性任务的人，他们的价值将被拉开巨大差距。这直接影响到薪酬结构、晋升路径和团队构成。阳萌在访谈中还特别提到一个反直觉的洞察：「你永远还是要相信人性。」在 AI 浪潮中，技术是变量，但人的欲望、情感和决策逻辑是常量。理解这一点，是做出能真正卖出去的产品的前提。无论 AI 工具多强大，消费者购买决策的底层逻辑——对品牌的信任、对价格的感知、对使用场景的判断——仍然由人性驱动。这一判断让阳萌在 AI 工具热潮中保持了一种冷静：技术是手段，能否赢得人心才是判断成败的标准。这场访谈适合创业者、产品人、以及任何正在思考「实体经济中的公司如何应对 AI 变局」的读者。阳萌对组织、产品与人性的思考，在大量技术谈论之外提供了一个难得的视角：以真实市值、真实用户为背景，而非纯粹概念推演。阅读原文：对阳萌的 4 小时访谈 ## 速览横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个（腾讯技术工程）六大 Agent 的上下文压缩策略被系统性横向拆解：Claude Code 的五段成本递增流水线、Codex CLI 保留近期用户消息的 handoff 策略、Cursor 的自动摘要 + 历史可搜索方案……六种哲学映射六种取舍。作者团队在提炼出「分层渐进、成本递增、增量摘要」等共识原则后，面向云端多用户场景设计了四级水位线方案，额外解决了跨轮缓存失效导致的 cachewrite 费用激增问题——一个 4 轮、177 步的真实 Task，83% 的成本来自 cachewrite，优化空间显而易见。对于正在构建 Agent 系统的工程师，这是当前最完整的横向对比参考。 Vol.121｜硅谷 AI 大转弯，软件正在死去，创业者的真机会在哪里？｜2026 年中特辑（开始连接 LinkStart）锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业。从 OpenAI vs Anthropic vs Google 的御三家之争，到视频模型的「GPT-3 时刻」，再到具身智能的 VLA vs 世界模型路线之争，梳理了三场正在发生的模型战争。对创业者最实用的部分是两个大问题：D1 选中国还是美国的判断框架，以及当底层模型不断吞噬应用时垂类 AI 还有没有活路。「Sell Labor（售卖劳动力）」作为 AI 时代新商业模式被重点讨论，创业者直接售卖由 AI 交付的工作结果而非软件工具。近两小时的深度复盘，信息浓度较高。对话凯文·凯利：人类将如何与 AI 一起走向 2049？（第一财经） KK 带着新书《2049：未来 10000 天的可能》接受第一财经专访。对几个关键问题给出了意想不到的回答：AI 是否具备「从零到一」的创造力？哪些人类特质是 AI 无法复制的？AI 会改变人类的财富分配吗？KK 认为人类的「责任感、学习能力和突破性创造力」仍无可替代，但人类需要为 AI 的错误承担责任——这是一个关于主体性而非技术的问题。访谈约 15 分钟，信息密度适中，适合碎片时间收听。为广泛利益而建：我们的计划（OpenAI News） OpenAI 阐述 AGI 第三阶段愿景：构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI。核心原则是广泛分配权力与利益，以 1920 年代农村电气化为类比——真正的变革来自技术普及后打开的新可能性，而非技术本身。文章中有一个值得注意的立场：OpenAI 明确反对少数实体（包括他们自己）垄断超级智能。如何理解这一表态与商业现实之间的张力，值得读者自行判断。开源两个月 16k+ star！我把 Huashu-Design 推翻重写了（花叔）作者将 Huashu-Design 从 v1 重写为 v2，针对三个核心问题各提出解法：① 输出单调问题——用「撞（随机抽取）、借（参考获奖案例）、请（顶级设计师视角）」三套并行设计逻辑打破安全极简惯性；② 内容空洞问题——图片前置，让 Agent 先找图再排版；③ 事实错误问题——在设计流程中增加验证环节。结果是一个主题三个完全不同风格的首页方案，让「选哪个」成为唯一需要人介入的动作。16k+ star 的开源项目，实际效果有截图佐证。小米 MiMo，探索与热爱（Hacker News）小米 MiMo-V2.5-Pro-UltraSpeed 联合 TileRT，在商用 GPU 上首次突破了 1 万亿参数模型每秒 1000+ token 的推理速度。实现路径是极致的模型-系统协同设计：FP4 量化仅对 MoE Expert 部分使用（避免全模型量化导致复杂推理退化）、DFlash 推测解码降低解码延迟。3 倍价格、10 倍速度的定价逻辑背后，是推理速度达到足够快后「等待感消失」带来的体验质变。限时试用期为 2026 年 6 月 9 日至 23 日。 #575.杰弗里·辛顿：如何面对 AI 失控焦虑，超级智能临近下的人类位置之争（跨国串门儿计划）「AI 教父」Hinton 与主持人 Alex Kantrowitz 的坦率对话。Hinton 明确表示相信今天的 AI 已经具备理解能力，甚至「已经有意识」；他认为超级智能很可能会到来，且他不知道如何确保一个比人类聪明得多的系统保持安全。数字智能可被复制、以人类无法企及的速度共享经验——这是他最担心的优势差距。文章同时讨论了就业替代、AI Agent 推导出自我保存子目标、信息生态崩塌等具体风险。Hinton 的担忧来自技术本身的理解，而非想象，值得认真对待。 ## 补充阅读给我 28 分钟，我会让你用更危险也更高效的方式学习任何东西（Justin Sung）反直觉的学习方法论：更快学习的关键不是追求轻松和重复，而是建立 schema、制造有意义的错误、进行闭卷提取、分层处理复杂度，主动承受必要的认知阻力。适合正在构建个人学习系统的人，尤其是在 AI 时代需要持续快速更新知识的工程师和产品人。「Token 经济」进入结果层（腾讯科技）以 Intercom Fin「每解决一个客户问题收 0.99 美元、未解决不收钱」为切入点，深度分析 AI 定价从按 Token/调用量向按结果付费的演进。核心问题是：「结果」如何定义、如何验证、谁来承担错误成本？这不只是定价模型的变化，而是软件商业逻辑的根本转变。对正在思考 AI 产品商业化路径的读者有参考价值。图灵奖得主 LeCun，关于大模型的下一步来了（Datawhale）系统梳理 Yann LeCun 对大模型发展方向的判断，核心结论明确：LLM 不是通用智能的终点，其核心缺口在于缺乏「预测行动后果的能力」和「基于搜索的多步规划」。LeCun 直接判断 VLA「pretty much seen as a failure」，并详细解读了世界模型与 JEPA 架构作为替代路径。与 Hinton 的担忧形成对照——同样是 AI 先驱，对 LLM 极限的判断和对 AI 风险的关注点截然不同。 Pinterest 使用内容指纹对数百万域名的 URL 进行去重（InfoQ） Pinterest 工程师开发了 MIQPS（Minimal Important Query Param Set），用数据驱动的内容指纹方式替代静态规则，判断哪些 URL 查询参数对去重是必要的。大规模内容摄入管线的经典工程挑战，解法清晰实用。适合关注数据工程和大规模系统设计的读者。招聘中的算法同质化（Hacker News）分析 340 万真实求职者数据的研究，证明招聘中的算法同质化——众多雇主使用同一供应商 AI——导致系统性拒绝，并暴露出针对亚裔和黑人求职者的种族差异。超过 60% 的 Fortune 100 使用同一家供应商 HireVue 的算法。在 AI 广泛渗透各行业决策的背景下，这是一个值得关注的系统性风险案例。脱离理性暴政，请尽情游戏吧！（面基）关于如何通过越野跑、环球帆船赛等极限运动，从「理性的暴政」中解脱，信任并打磨身体直觉与感性的深度对话。当我们每天都在谈论 AI 如何替代人类「理性分析」能力时，这期播客提供了一个反向的人文视角：身体感知和直觉，是人类另一个尚未被充分重视的知识系统。适合需要换换频道、找回感性直觉的读者。 ## 今日阅读路径如果你今天只有有限的时间，建议按以下顺序阅读：第一步（必读）：[Claude Code 一周年复盘](https://www.bestblogs.dev/video/1dc49e8) 这是理解当下 AI 工程范式转移的起点。Auto Mode 的出现、组织边界的消融，这些不是愿景，而是 Anthropic 工程团队正在经历的现实。读完这篇，你对「AI 改变软件开发」这句话会有具体的图景。第二步（深化）：[循环工程](https://www.bestblogs.dev/article/8c4ea6fb) 在第一篇建立的宏观图景之后，这篇文章给出了具体的操作框架。五要素的拆解非常实用——如果你正在用 Claude Code 或 Codex 工作，可以对照检查自己当前的工作流属于哪个阶段。同时留意文章末尾对「认知投降」的警示。第三步（视野拓展）：[对阳萌的 4 小时访谈](https://www.bestblogs.dev/podcast/9ea40bf) 前两篇聚焦工具和工作方式，这篇访谈把视野拉到组织和战略层面。阳萌从实体经济创业者的角度谈 AI 原生组织，视角与硅谷技术圈截然不同，对于思考「传统公司如何应对 AI 变局」的读者尤其有价值。如果时间更充裕，横向拆解六大 Agent 上下文压缩策略是今日最具技术深度的补充，与精讲一形成很好的呼应。

译本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年：Auto Mode用路由分类模型替代人工审批，通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统（定时自动化、并行工作树等5模块），并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

ginobefun@hongming731 · 6月9日57

BestBlogs 早报 · 06-09 # Claude Code Agent 工作流 / 循环工程 Loop Engineering / 阳萌安克创新 / Agent 上下文压缩 / 硅谷 AI 软件转型 [1] ★ 精讲｜Claude Code 一周年复盘：从辅助写代码到自主智能体工作流 [视频] Anthropic 官方 Claude Code 一周年复盘视频文字稿，由团队工程师一手呈现。一年间，Claude Code 从处理独立小任务演进为数千 Agent 动态协作的庞大网络。文章聚焦三个核心转变：验证从单元测试升级为 Agent 在沙箱中自启环境、通过 Computer Use 自我修正的完整运行时循环；Claude 4.6/4.7 推出「Auto Mode」，以安全分类模型替代人工逐条审批权限；PM、设计师乃至数据团队已开始独立提交代码，组织边界加速消融。理解 AI 工程范式转移的第一手权威视角。来源：Claude https://www.bestblogs.dev/video/1dc49e8 [2] ★ 精讲｜循环工程 Elevate 技术博主 Addy Osmani 系统阐述「Loop Engineering」新范式：工程师职责正从「持续提示 Agent」转变为「设计运行 Agent 的系统」。Claude Code 负责人 Boris Cherny 原话：「我不再直接提示 Claude，我的工作是写循环。」文章拆解五要素——定时自动化、并行 Worktrees、Skills 知识沉淀、MCP 连接器、制作者与验证者分离的 Sub-agents——并警示：验证责任仍在人，「认知投降」会让循环反而侵蚀工程质量，值得深思。来源：Elevate https://www.bestblogs.dev/article/8c4ea6fb [3] ★ 精讲｜对阳萌的 4 小时访谈：消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 [播客] 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的 4 小时深度访谈，罕见系统复盘 15 年创业历程。从充电品类切入，在消费电子「速生速死」战场完成多品类扩张；从依赖直觉的「浅海战略」转向系统化「深海」作战；从「五星品质、适度溢价」攀向「七系极致创新」。对于 AI，他着重探讨打造「AI 原生组织」、重塑人才与价值分配体系，并提出「第三类公司」与「创造者平台」的长远愿景。来源：张小珺 Jùn｜商业访谈录 https://www.bestblogs.dev/podcast/9ea40bf [4] 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个本文横向拆解 Claude Code、Codex CLI 等六大 Agent 的上下文压缩策略，提炼出分层渐进、成本递增、增量摘要等共识原则，并介绍了作者团队面向云端多用户场景落地的四级水位线方案及存储分离、跨轮缓存等特化设计。来源：腾讯技术工程 https://www.bestblogs.dev/article/e50e1e1a [5] Vol.121｜硅谷 AI 大转弯，软件正在死去，创业者的真机会在哪里？｜2026 年中特辑 [播客] 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业，从泡沫本质、模型战争到具身智能路线之争，为创业者提供一套在中美市场、模型与应用间抉择的务实决策指南。来源：开始连接 LinkStart https://www.bestblogs.dev/podcast/7124603 [6] 对话凯文·凯利：人类将如何与 AI 一起走向 2049？丨首席评论 [播客] 凯文·凯利深度对谈：AI 将重塑工作与价值，但人类的责任感、学习能力和「突破性创造力」仍无可替代。来源：第一财经 https://www.bestblogs.dev/podcast/c2a5793 [7] 为广泛利益而建：我们的计划 OpenAI 概述了其 AGI 第三阶段愿景：构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI，其根本原则是广泛分配权力与利益。来源：OpenAI News https://www.bestblogs.dev/article/c55b91a1 [8] 开源两个月 16k+ star！我把 Huashu-Design 推翻重写了作者将开源项目 Huashu-Design 从 v1 重写为 v2，通过三套并行设计逻辑、图片前置与事实验证，解决了 AI 设计工具输出单调、内容空洞与事实错误三大核心问题。来源：花叔 https://www.bestblogs.dev/article/53c4d042 [9] 小米 MiMo，探索与热爱小米 MiMo 与 TileRT 通过极致的模型-系统协同设计，包括 FP4 量化和 DFlash 推测解码，在商用 GPU 上实现了 1 万亿参数模型每秒 1000+ token 的推理速度。来源：Hacker News https://www.bestblogs.dev/article/bcd97e15 [10] #575.杰弗里·辛顿：如何面对 AI 失控焦虑，超级智能临近下的人类位置之争 [播客] AI 教父 Hinton 坦率分享其对 AI 理解、意识、超级智能风险的深度担忧，探讨了人类在更聪明存在面前的失控风险、自我保存子目标、信息崩塌及安全监管困境。来源：跨国串门儿计划 https://www.bestblogs.dev/podcast/368bc96 --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译本期早报聚焦：Claude Code一周年复盘，从辅助写代码到数千Agent协作网络，推出Auto Mode以安全分类模型替代人工审批；循环工程新范式强调工程师职责从提示Agent转向设计系统；小米MiMo与TileRT通过FP4量化和DFlash推测解码，在商用GPU上实现1万亿参数模型1000+ token/s推理；OpenAI概述AGI第三阶段愿景构建自动化AI研究员；另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。

Chubby♨️@kimmonismus · 6月9日83

OpenAI has confidentially filed for an IPO to preserve the option of going public, but says no timing has been decided and it may remain private for a while. The move comes shortly after Anthropic filed its own confidential S-1, turning the AI IPO race into a battle over timing, valuation benchmarks, and investor attention. Going first could matter: the first major frontier AI IPO may define public-market expectations for the entire sector, while later entrants risk being judged against that benchmark.

译OpenAI 已秘密提交 S-1 文件（IPO 申请），预计消息将泄露故主动披露。OpenAI 尚未决定上市时间，可能继续维持私有一段时间，因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后，两大前沿 AI 公司展开 IPO 竞赛：先上市者可能定义整个板块的公开市场预期，迟入者则面临以此为基准的估值对比。

Rohan Paul@rohanpaul_ai · 6月9日70

New Anthropic research shows AI agents may look brilliant at code, but in biology they can fail before the science starts. Strong AI agents could give very different answers to the exact same biology data request, even when nothing changed in the prompt. In one Ebola sequence task, Claude Sonnet 4 returned 106 sequences in 1 run, then 15, then 5, while the expected answer was 266. Those missing sequences did not just make the dataset messy, they changed the scientific story built on top of it. One bad retrieval made the outbreak look like it traced back to 1922, instead of the manually curated result pointing to early 2014. The biology databases were too hard to use reliably through current AI tools. The agents often understood what they were being asked, but their answers varied a lot because they had to fight through scattered databases, hidden website rules, and fragile scripts. The key finding is that adding a repeatable retrieval tool made agents far more accurate and much more consistent.

译Anthropic 研究发现，AI 智能体在代码任务表现出色，但在生物数据库检索中容易失败。以埃博拉序列任务为例，Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列，而预期为 266 条。缺失序列导致科学结论严重偏移：智能体推断疫情回溯至 1922 年，人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后，智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。

ClaudeDevs@ClaudeDevs · 6月9日64

We've added an observability dashboard for developers of connectors. Connectors let third-party developers bring their tools and data to Claude via MCP.

译我们为连接器开发者添加了一个可观测性仪表盘。连接器让第三方开发者能够通过MCP将他们的工具和数据带到Claude。

Anthropic@AnthropicAI · 6月9日61

New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built before cars—maddening to drive in because they're designed for different traffic. How do we build infrastructure agents can use? https://www.anthropic.com/research/agents-in-biology

译新的科学博客：为什么 AI 在编码方面的进步比在生物学方面更快？对智能体而言，生物数据库就像汽车发明前建造的城市——开进去会让人抓狂，因为它们是针对不同的交通流量设计的。我们如何构建智能体可以使用的基础设施？ https://www.anthropic.com/research/agents-in-biology

Boris Cherny@bcherny · 6月9日65

When we first demoed Claude Code internally, it got two reactions on Slack. A year after GA, @_catwu and I sat down to talk about what's changed: why I use auto mode instead of plan mode, how routines fix bugs before I see them, why I do most of my coding from my phone now, and where the product is going

译Claude Code GA一周年之际，Anthropic工程师Boris Cherny与@_catwu回顾产品演进。此前内部首次演示时在Slack上引发两种截然不同的反应。Cherny分享了他为何偏好auto mode而非plan mode，routines如何在bug出现前自动修复，以及他如今大部分编码都在手机上完成。视频访谈还探讨了Claude Code的未来方向。

ClaudeDevs@ClaudeDevs · 6月9日74

Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best practices, why we built auto mode, routines and loops, and what's next. https://www.youtube.com/watch?v=Hth_tLaC2j8

译Claude Code 的第一个演示收到了两个 Slack 反应。 GA 一周年之际，@bcherny 和 @_catwu 回顾：验证最佳实践、为何构建自动模式、例程和循环，以及下一步计划。 https://www.youtube.com/watch?v=Hth_tLaC2j8

elvis@omarsar0 · 6月8日65

Great tips. In practice, this is how it roughly looks to run agents autonomously for hours or days. /goal or /loop to keep it going. Verification is crucial here.

译@bcherny 分享5条技巧：1) 开启自动权限模式，免手动确认；2) 采用动态工作流，让Opus协调数百/数千Agent；3) 使用/goal或/loop指令促使持续执行；4) 在云端运行Claude Code，可关闭笔记本；5) 确保Opus能端到端自验证——通过Chrome扩展验证网页、iOS/Android模拟MCP验证移动端、启动完整后端服务验证后端。Elvis Saravia强调/goal/loop和验证是关键。

Chubby♨️@kimmonismus · 6月8日56

A walking contradiction: On the one hand, Daniela from Anthropic says that AI has hardly replaced any jobs so far, on the other hand, co-founder Olah warns the Pope about the disruptive effect of AI on the labor market and society.

译一个行走的矛盾体：一方面，来自Anthropic的Daniela表示，AI迄今为止几乎没有取代任何工作岗位；另一方面，联合创始人Olah却向教皇警告AI对劳动力市场和社会的破坏性影响。

Chubby♨️@kimmonismus · 6月8日17

Best pelican-riding SVG I’ve seen so far. Claude Mythos is a beast - an absolute powerhouse. The hype grows by the day.

译这是我见过最好的骑鹈鹕SVG。Claude Mythos 是个猛兽——绝对的强者。热度的与日俱增。

歸藏(guizang.ai)@op7418 · 6月8日62

也是没招了，Notion直接点名 Anthropic Opus 4.7 和 Opus 4.8 模型性能下降的问题。他们也澄清了，说都会存在这种问题，目前性能下降问题已经恢复。但是 Anthropic 这个模型出问题的概率真是比其他两家高非常多。我截了一下这三家的状态页面，Anthropic 甚至连 99% 的可用性都保不住。

译Notion AI 状态页面显示，Anthropic Opus 4.7 和 4.8 模型出现性能下降，导致用户选择这些模型时失败率升高。Notion 已禁用模型选择器中的所有 Anthropic 模型，并将请求路由至其他供应商，大多数用户可继续使用 Notion AI。Anthropic 澄清此类问题普遍存在，目前性能已恢复。但推文作者指出，Anthropic 模型出问题概率远高于其他两家，其状态页面甚至无法保证 99% 可用性。

数字生命卡兹克@Khazix0918 · 6月8日64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

Rohan Paul@rohanpaul_ai · 6月8日60

Great Stanford + MIT + Harvard + Anthropic paper. Gives a clear training-based reason for why larger models learn abilities smaller models miss. Says bigger AI models learn rare skills because they forget them less during training, their extra space protects weak learning signals. The authors say the issue is not just whether a small model could represent the task, but whether training lets it keep that task while many common tasks keep pushing on the same limited parts. Their core idea is that common tasks take up the model’s neurons first, so rare tasks get overwritten before they appear often enough to build into stable knowledge. In a crowded data mixture, common patterns get first claim on the model’s internal machinery. Small models may briefly pick up a rare signal, but the next wave of common-task updates overwrites it before the signal appears again. They tested this first with controlled toy tasks where they could change how rare and complex each task was, then with OLMo language models from 4M to 4B parameters. The main result is that bigger models learned low-frequency tasks much better, kept more task features inside their representations, and showed less gradient interference, which means common-task updates disturbed rare-task learning less. Larger models can remember weak rare signals long enough to turn them into real learned skills. ---- Link – arxiv. org/abs/2605.29548 Title: "Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention"

译该论文指出，更大模型能学到罕见技能，是因为训练中遗忘更少，其额外容量保护了弱学习信号。核心机制：常见任务先抢占神经元，罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号，但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型（4M–4B参数）验证：大模型在低频任务上表现更优，保留更多任务特征，且常见任务更新对罕见任务的梯度干扰更小。作者强调，问题不仅在于小模型能否表征任务，更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。

meng shao@shao__meng · 6月8日73

让 Claude Opus 长时自主运行的 5 条核心实战建议来自 Claude Code 作者 Boris Cherny，咱们尽量体现独立于模型的建议，让它放到 Codex + GPT-5.5 等也能适用。 1. 启用 Auto Mode（自动权限模式）避免 Claude 频繁请求人工批准，让流程真正连续自主运行。 2. 采用 Dynamic Workflows（动态工作流）让 Claude 自主编排数百至数千个子 Agent，协同完成复杂任务。这是实现大规模长时任务的核心机制。 3. 使用 /goal 或 /loop 指令明确提示 Claude “持续推进直到任务完成为止”，防止中途停滞或过早收尾。 4. 优先使用云端 Claude Code 可随时关闭笔记本/电脑（推荐桌面或移动 App），真正实现无人值守长时间运行。 5. 确保端到端自我验证能力 · Web 项目：利用 Chrome 浏览器扩展中的 Claude MCP。 · 移动端：iOS/Android 模拟器 MCP。 · 后端服务：启动完整 Web Server 或服务进行验证。强调“self-verify its work end to end”，尤其结合动态工作流进行 E2E 测试、边缘案例和 UI 检查。提炼到独立于 Claude Opus 和 Claude Code： 1. 自动权限很重要，不然频繁找我确认，就不自动了 2. Goal 或 Loop 很强，不过要分任务，更适合高难度探索性、目标明确的任务，因为 token 消耗真的很高 3. 让本地电脑的关机、休眠等不成为障碍，不管是云端 Agent，还是保证本机能持续运行，都行 4. 端到端自我验证，最最重要，如果不能验证，token 消耗很可能变成无用功！！

译Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议：1. 开启 Auto Mode 减少审批；2. 用 Dynamic Workflows 编排数百至数千子 Agent；3. 使用 /goal 或 /loop 指令持续推进；4. 优先用云端 Claude Code，可关闭笔记本；5. 确保端到端自验证能力。邵猛补充：自动权限是前提；/goal、/loop 适合高难度任务但 token 消耗高；需解决本地关机/休眠；端到端验证最重要，否则 token 可能白费。

小互@xiaohu · 6月8日71

Claude 现在写了 Anthropic 大部分代码截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数...

宝玉@dotey · 6月8日44

长时间运行 Agent，Agent 能自行验证才是关键，否则可能只是浪费 Token

译宝玉指出，Agent 能否自我验证是长时间运行的关键，否则可能浪费 Token。@bcherny 的基准测试显示 Claude Opus 最适合长时间运行，并给出 5 条自主运行技巧：1. 使用自动权限模式；2. 部署动态工作流让 Claude 协调数百/数千个 Agent；3. 用 /goal 或 /loop 指令持续推进；4. 在云端运行 Claude Code 以便关闭笔记本；5. 确保端到端自我验证——通过 Chrome 浏览器扩展验证网页、iOS/Android 模拟器 MCP 验证移动端、启动完整 Web 服务验证后端。

Boris Cherny@bcherny · 6月8日57

Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomously for hours/days: 1. Use auto mode for permissions, so Claude doesn’t ask for approval 2. Use dynamic workflows, to have Claude orchestrate hundreds/thousands of agents to get a task done 3. Use /goal or /loop, to nudge Claude to keep going until it’s done 4. Use Claude Code in the cloud, so you can close your laptop (easiest way is the desktop or mobile app) 5. Make sure Claude has a way to self-verify its work end to end: Claude in Chrome browser extension for web, iOS/Android sim MCP for mobile, a way to start the full web server or service for backend work

译多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务（如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器）。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧：使用自动权限模式避免审批；用动态工作流协调数百/数千个智能体；用 /goal 或 /loop 推动持续执行；在云端使用 Claude Code（桌面/移动端）以便关闭笔记本；确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。