别吹了！根本不是那么回事！日本的Fugu在日语里面是河豚🐡的意思，就是那个胖嘟嘟很可爱有剧毒的河豚。对比了Fugu、GLM 5.2、Opus 4.8、GPt-5.5 其实实际还是和GLM 5.2 都有很明显的差距，没有到接近。这两天都是在搞营销宣发，这个也是美国VC机构主要投资的日本企业。话说日本在AI这一波中根本就没有赶上，他们可以「蒸馏」出牛逼的模型吗？我不信可以那么快赶超中美。

译Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称，认为实际差距明显、属营销宣发。引用数据显示，在构建交易台任务中，Fugu Ultra输出22,225 token、成本$0.51；GLM 5.2输出13,677 token、成本仅$0.03，便宜约17倍。Opus 4.8（15,802 token/$0.31）和GPT-5.5（11,474 token/$0.26）成本也更低。主推文指出该模型来自美国VC投资的日本企业，质疑日本能否靠“蒸馏”快速赶超中美。

ClaudeDevs@ClaudeDevs · 6月23日36

The Japan Claude Community Ambassador program is here! 🇯🇵 Ambassadors have hosted 290+ meetups in 107 cities across 37 countries, with 40,000+ attendees building together. Now open from Hokkaido to Okinawa. 日本の皆さん、ぜひご応募ください！ https://claude.com/ja/community/ambassadors

译日本 Claude 社区大使计划来了！🇯🇵 大使们在 37 个国家的 107 个城市举办了 290 多场聚会，共有 40,000 多人一起参与。现在从北海道到冲绳全面开放。日本の皆さん、ぜひご応募ください！ https://claude.com/ja/community/ambassadors

Chubby♨️@kimmonismus · 6月23日31

And not a single message from @AnthropicAI . An update on Fable 5 in general, and on subscriptions in particular, would be really helpful.

译快速提醒：今天正是 Fable 5 从订阅中移除的日子。看看 Anthropic 会如何回应。（Sonnet 5 作为补偿？） Anthropic 至今没有发来任何消息。

Artificial Analysis@ArtificialAnlys · 6月23日60

Open weights models make up the majority of the cost-performance Pareto frontier on AA-Briefcase, our new agentic knowledge work benchmark Last week we released AA-Briefcase, our proprietary agentic knowledge work benchmark testing models on long horizon tasks built by industry experts. AA-Briefcase requires models to build deliverables such as financial models, board presentations, and design mock-ups in the context of realistic multi week projects. The cost to run a single AA-Briefcase task varies by over 700x in the initial set of models we tested. With the highest performing model, Claude Fable 5, costing over $20 per task, cost efficiency is a key element in model selection for knowledge work. While the two highest performing models on the cost-performance Pareto frontier are proprietary models from @AnthropicAI, most of the remaining frontier is made up of open weights models. Notable cost efficiency trade offs: ➤ At $2.40 per task, GLM 5.2 (max) from @Zai_org scores within 90 Elo points of Claude Opus 4.8 (max) while costing 65% less ➤ At $0.08 per task, DeepSeek V4 Pro (max) from @deepseek_ai scores ~60 Elo points above Gemini 3.5 Flash while costing over 98% less

译Artificial Analysis发布AA-Briefcase智能体知识工作基准测试，评估模型在长期任务中的表现。任务成本差异超700倍，最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上，除Anthropic两个最高分模型外，其余大部分由开放权重模型占据。关键性价比：GLM 5.2 (max)每任务$2.40，得分仅比Claude Opus 4.8低90 Elo，成本低65%；DeepSeek V4 Pro (max)每任务$0.08，得分比Gemini 3.5 Flash高约60 Elo，成本低98%以上。

Yuchen Jin@Yuchenj_UW · 6月23日26

Fable 5 is not back. Apparently Anthropic’s non-citizen researchers can’t use Mythos/Fable 5 due to the ban, but they can still build more powerful models like Mythos 6 or Fable 6. If that’s true, I don’t think the ban makes much sense.

译Fable 5 没有回归。显然，由于禁令，Anthropic 的非公民研究员无法使用 Mythos/Fable 5，但他们仍然可以构建更强大的模型，如 Mythos 6 或 Fable 6。如果真是这样，我认为这项禁令没什么意义。

Berryxia.AI@berryxia · 6月23日55

卧槽！老马的现金流奶牛简直了！开启印钞机模式了，买Cursor岂不是洒洒水啊！ SpaceX现在每个月光靠给AI公司提供算力，就能收到23.2亿美元。根据这个爆料，SpaceX和三家AI公司签了大规模算力协议： - Anthropic每月支付12.5亿美元 - Google每月支付9.2亿美元 - Reflection每月支付1.5亿美元加起来一个月约23.2亿，一年接近280亿的跑率，而且这还只是AI算力这一个业务线。这说明SpaceX已经不只是在造火箭和发卫星了。他们正在把轨道计算能力和全球低延迟网络，直接转化成AI时代的基础设施生意。 AI公司需要海量、稳定、分布式的算力，而SpaceX正好有这个独特优势。以前大家觉得SpaceX的收入主要来自NASA合同和Starlink用户，现在AI算力已经成了一个增长极快的新赛道，而且规模已经相当可观。 SpaceX正在从“航天公司”往“AI+航天基础设施公司”转型，这条路走得比很多人想象的更快。 PS：助力还得涨一波吧～叙事拉满了

译SpaceX 每月从 AI 算力服务获 23.2 亿美元，三家 AI 公司签约：Anthropic 月付 12.5 亿、Google 月付 9.2 亿、Reflection 月付 1.5 亿。正从航天公司向“AI+航天基础设施”转型，此收入已远超传统 NASA 合同和 Starlink 用户收入。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日46

ANTHROPIC 🔥: Claude for mobile is getting Cowork support soon! > Keep Cowork going when you are on the go > Start and steer tasks directly from your phone > Check in from your phone, browser, or Claude desktop app > Work continues in the background, even when you close the app h/t @M1Astra via DevMode

译ANTHROPIC 🔥: Claude for mobile 即将获得 Cowork 支持！

Berryxia.AI@berryxia · 6月23日56

A社又是赚的盆满钵满了啊！ Micron直接和Anthropic签了战略大单，现在既是Anthropic的投资者、客户、合作伙伴，又是供应商。根据公告，双方达成多年期HBM、DRAM和SSD合作协议，要围绕Claude的工作负载共同设计内存和存储架构。同时Micron内部也会部署Claude，而且还参与了Anthropic的Series H融资。这已经不是普通的供需关系了。 Micron既给Anthropic供货，又投钱、用Claude、还一起改硬件设计。 Anthropic则把内存和存储的规划直接绑定到Micron身上。以前AI公司主要是和NVIDIA这种算力公司深度绑定，现在连内存和存储层也开始出现这种“全栈绑定”的趋势。硬件公司不只是卖货，而是直接参与AI实验室的架构设计和长期规划。这波操作把AI基础设施的垂直整合又往前推了一步。未来可能越来越多硬件巨头会选择和特定前沿实验室深度绑定，形成更紧密的生态闭环。来源见评论区👇

译Micron与Anthropic签署多年期HBM、DRAM和SSD合作协议，双方将围绕Claude工作负载共同设计内存和存储架构。Micron既是Anthropic的投资者（参与Series H融资）、客户（内部部署Claude）和供应商，又是合作伙伴。这一深度绑定将AI基础设施的垂直整合从计算层延伸至内存存储层，预示硬件巨头与前沿实验室的生态闭环趋势。

DogeDesigner@cb_doge · 6月22日71

BREAKING: SpaceX will be paid ~$2.32 billion per month from these 3 AI compute deals. • Anthropic: $1.25B/month • Google: $920M/month • Reflection: $150M/month That’s a nearly $28 billion annual run rate from AI compute alone.

译BREAKING: SpaceX 将从这三笔 AI 计算交易中每月获得约 23.2 亿美元。 • Anthropic: 12.5 亿美元/月 • Google: 9.2 亿美元/月 • Reflection: 1.5 亿美元/月仅 AI 计算一项的年化收入就接近 280 亿美元。

Chubby♨️@kimmonismus · 6月22日68

Five Eyes cyber agencies warned that frontier AI models capable of dramatically escalating cyberattacks against governments and businesses may be only months away, not years. Via The Guardian The warning comes after the US blocked foreign nationals from accessing Anthropic’s Fable model, amid fears that systems like Mythos and Fable could transform both offensive and defensive cybersecurity. "Frontier AI models are anticipated to exceed current industry expectations, fundamentally transforming both offensive and defensive cyber capabilities. The timeline is not years, it is months,” the warning by Five Eyes’ agencies said."

译五眼联盟（Five Eyes）网络机构警告，能够显著升级针对政府和企业的网络攻击的前沿AI模型可能仅需数月（而非数年）就能实现。该机构称前沿AI模型预计将超出当前行业预期，从根本上改变攻防网络能力。此前美国已禁止外国人访问Anthropic的Fable模型，担忧Mythos和Fable等系统可能同时改变进攻性和防御性网络安全。

Berryxia.AI@berryxia · 6月22日12

如果Claude Code 在1995年发布的话。

Chubby♨️@kimmonismus · 6月22日38

It seems the first tests with Sonnet 5 are already underway. If this is confirmed, we're in for a great release!

译Sonnet 5 首次亮相。模型速度极快，且未使用参考图。看来下周会很忙。Kim 评论称，若测试确认，这将是一次很棒的发版。

Chubby♨️@kimmonismus · 6月22日24

Quick reminder: Today is officially the day Fable 5 is being removed from subscriptions. Let's see how Anthropic responds to this. (Sonnet 5 as compensation?)

译快速提醒：今天是 Fable 5 正式从订阅中移除的日子。让我们看看 Anthropic 如何回应。（Sonnet 5 作为补偿？）

Berryxia.AI@berryxia · 6月22日66

讲真，不容易啊！终于有人一次性把出海几件套基础装备说清楚了！用Claude/ChatGPT被封号太常见了，黄总用一套四件套方案，从手机号、IP、浏览器指纹到支付卡，全流程帮你伪装成“真实海外用户”。 Serva这篇长文把AI平台封号的底层逻辑讲得很清楚：风控系统主要判断你是不是“真人海外用户”。只要手机号归属地、IP类型、浏览器指纹、支付方式里有一个环节不对，就容易被标记高风险。他给出的四件套是目前最完整的实战方案： 1. eSIM卡（BeeSIM硬件 + giffgaff英国号）——拿真实海外手机号 2. 静态住宅IP（EqualVPN美国家庭宽带）——避免数据中心IP和动态跳变 3. 指纹浏览器（AdsPower）——隔离设备环境，模拟美国用户指纹 4. 虚拟卡（YIKA美国发卡）——匹配账单地址，支付成功率高核心思路就是：把注册、登录、支付、使用全流程的身份信号都对齐成一个正常生活在美国的用户。单独用VPN或者虚拟卡效果有限，四件套组合起来才比较稳。这篇文章写得非常细，从硬件购买、激活流程、Clash配置、指纹设置到支付取消自动续费，每一步都有截图和注意事项。适合经常被封或者想长期稳定使用Claude/ChatGPT的用户参考。真好，细致周到。❤️

译Berry Xia推荐Serva总结的AI平台防封号方案，针对Claude/ChatGPT因风控被封号。四件套包括：eSIM卡（BeeSIM硬件+giffgaff英国号）获取真实海外手机号；静态住宅IP（EqualVPN美国家庭宽带）避免数据中心IP；指纹浏览器（AdsPower）模拟美国用户环境；虚拟卡（YIKA美国发卡）匹配账单地址。核心思路是将注册、登录、支付、使用全流程身份信号对齐为真实美国用户。单独用VPN或虚拟卡效果有限，四件套组合更稳定。原文附有详细截图步骤。

Chubby♨️@kimmonismus · 6月22日29

I'm really looking forward to the Sonnet 5 release. Sonnet has sometimes been stronger than older Opus models at launch, most clearly with Claude 3.5 Sonnet outperforming Claude 3 Opus in areas like coding, speed, and cost-performance. But the real point of Sonnet obv. is not simply "beating Opus"; it is about translating frontier-level intelligence into a practical workhorse model: fast enough, affordable enough, and reliable enough to power real products, agent workflows, and everyday coding at scale. So yeah, exciting week ahead.

译用户 Kim 期待 Sonnet 5 发布，指出 Sonnet 系列常在发布时强于老一代 Opus，如 Claude 3.5 Sonnet 在编程、速度和性价比上超越 Claude 3 Opus。Sonnet 的核心价值是将前沿智能转化为实用工作模型：足够快、足够便宜、足够可靠，支撑实际产品、智能体工作流和日常大规模编码。引用推文暗示本周可能迎来繁忙发布，包括 GPT-5.6 和 Sonnet 5。

数字生命卡兹克@Khazix0918 · 6月22日66

http://x.com/i/article/2068923862918877184 # AI用得好不好，跟你会不会管人，我觉得越来越是同一件事。故事是这样的。这个端午节在家，终于可以休息了，然后几乎就是疯狂的用Agent来做自己好玩的东西。有图为证，最近这个假期，差不多干掉了2000多万的token。这里我防杠一下，我知道可能会有人说，你这好几天才干掉2000万token，也不算啥，我基本每天API都是一个亿起步。我想说首先我不是那么重度的用户，我就是个普通的爱好者，其次这个PK在我看来没有任何意义，因为只能说明你烧的多但是不代表质量高，最后这个Claude Code客户端的token消耗计算是不算缓存的，如果算上缓存的话，一个稍微大型一点跑4个小时的任务，烧的token可能就是4个亿。因为Claude Fable 5被下架了，所以这个假期，我几乎全部用的都是Claude Opus 4.8，然后有一个任务，让我感慨万千，那一瞬间，我真的无比的怀念Claude Fable 5。这个任务，是我自己做的AI资讯聚合网站AIHOT的一个聚簇机制。也就是大家在精选页下看到的这个关联讨论多少条。我们外显监控的信源其实只有200个不到，但是背后其实还监控着近千个隐性信源，有多少可信信源共同讨论某一件事，几乎代表着未来AI时代我觉得热点的性质和定义。所以这就需要聚簇，也就是把大家讨论的事情给拆分、聚集、然后形成一簇，再把其中一个信源的单条信息推选出来当领袖对外展示，其他的隐藏在背后。大概就是这么个东西。而且做聚簇还有个必要性，就是比如某个大事件突然爆掉的时候，比如这周GPT-5.6发布了，那在AI领域，一定是上百个信源共同讨论，其中会有无数被精选，如果我们全都展示出来，那就直接刷屏了，整个AIHOT上你也看不到别的了，满屏的都是GPT-5.6，用户体验极差。所以于情于理，这个东西我们都要做好。但是呢，现在的聚簇机制，过去经常有问题，一会把不该聚的聚在了一块，一会把该聚的又分裂了，我自己看起来经常难受的要死。。。所以这个端午节假期，我就准备重构一下这个聚簇的算法。感觉没有那么难对吧，但是，坑比我想象的多太多了。首先最大的问题是，我知道当一个热点爆发的时候，相关新闻应该被聚拢成一个簇，我知道语义相近但事件不同的新闻必须被拆开，我知道时间窗口应该限制在24小时以内，我知道聚簇的阈值不能太松也不能太紧，太松了什么都黏在一起，太紧了每条新闻都是孤岛。这是最终的效果和目标，但是究竟什么样的算法和机制可以达成，坦诚的讲，我是个废物，我一无所知。。。所以我只能给Claude Code一段这样的目标，然后让他全网调研，用我们数据库里的真实数据进行量化回测，让它自己去实现。我把这些东西写清楚了，丢给了Opus 4.8。然后问题就来了。 Opus 4.8是一个很强的模型，这个我承认。但是至少在做这种只有模糊目标没有明确任务的事情上，全面崩盘。在方案设计上，就漏洞百出，查了一些论文，学了一些所谓的SOTA的做法，然后设计的方案乱七八糟，我稍微检查一下感觉里面就有漏洞，我一问它就自己反转反转再反转。经典台词：这里有个反转。后面都给我干生气了，怒斥这个墙头草，毫无底线，毫无坚持。最后拼拼凑凑在对抗式审查之后，出了一版方案，我开着那个最高级别的动态工作流也就是那个Ultracode让他做完，又是一堆BUG，最后又变成了哦阈值0.72高了点，我们降到0.71吧，没有考虑到多语言，也毫无各种各样的边界情况。这玩意干了我一天时间，中间不断修修补补，新方案修了旧的问题，又冒出来新的问题。最后给我干的快道心破碎了。那个状态，想起了我在公司里带一些能力还不错但你又不能完全放手的小伙伴的时候，你给他方向，他能走，但你得盯着，时不时拉一把，时不时补一句这个地方你漏了，这么做它不对。那天，我突然心中好怀念Claude Fable 5。如果Fable 5还安在，这个事情可能半天就搞定了，而且省心省力。因为我之前用Fable 5做过好几个类似复杂度的项目，每次的体验都是一样的，我只需要把目标讲清楚，甚至不需要那么明确的目标，一个模糊的目标也行，它给出来的方案经常比我自己能想到的要好N个数量级，而且大概率是能以非常优雅的姿态，完成你的目标。那玩意，就是那种你给它一个方向它能自己跑到终点还顺手把沿途的坑都填了的选手。但它出师未捷身先死，中道崩殂了。所以我只能用Opus 4.8或者GPT-5.5，然后用更细致的管理方式去补它们和Fable 5之间的差距。但这个体验，让我想明白了一件非常非常非常重要的事。不同能力的AI，你得用不同的管理方式。跟管人，是一模一样的。这几年，当过大头兵，当过小组长，管过小团队也管过大团队，现在也作为一个创始人在创业管着自己公司的三十来号人。我自己对管理最深的体感就是一句话：越厉害的人，你给的东西就得越不一样。比如纯粹的新人刚刚入职的时候，你可能得告诉他每一步怎么做。比如打开这个文件，复制这段数据，粘贴到那个表格里，格式调成这样，最后发给谁谁谁，你给他的，其实就是一个任务清单，每一步都写得清清楚楚。这其实就是Prompt Engineering的逻辑，你把每一步都告诉AI，它照着做。但是带了一段时间之后，他开始上手了，你就不用这么细了。你可以跟他说，这个月的视频内容排期你来做，风格参考上个月的，节奏控制在每周两条。你给他的，从一步一步的指令，变成了一个目标加上一些约束条件。这就是Harness Engineering的逻辑。你给AI一个目标和一套规则，它在规则内自己想办法达成。再后来，如果这个人真的很强，你会发现一个很微妙的变化。你甚至不需要给他特别具体的目标了，你跟他说，我们今年想把品牌在线下活动的影响力做起来，你来想想怎么搞吧。或者说，我们今年MCN的商业化收入，要保持口碑的同时健康的增长。他不光能做，他还能反过来给你一个你没想到的方案。而且他做完之后，还能把这次整套的流程沉淀成SOP，下次换一个人来，也能继续执行照着跑，它可以去拓展更牛逼的业务。这种人，是每个公司、每个团队、每个管理者做梦都想要的超级大佬。 Claude Fable 5给我的感觉，就是这种人。而它之下，Opus 4.8、GPT-5.5、GLM-5.2，都更像一个能力很强但你还是得盯着的高级员工。你看，差别就出来了。我做AIHOT聚簇那两天的痛苦，根源就在这里。我给了一个策略层的目标，但Opus 4.8需要的其实是更接近执行层的指引。这时候，我的管理方式和模型的能力层级之间有一个错配。就像你把一个合伙人级别的目标甩给了一个高级执行者级别的人，这个人其实并不是不行，只是你的预期和他的承接能力之间差了一层。回到管人这件事。我这两天其实也一直在想一个问题，为什么有些人用AI效果特别好，有些人就总觉得AI很笨。我现在越来越觉得，这跟一个人会不会管理，是强相关的。管人管得好的人，天然就知道怎么定义目标、怎么给约束、怎么设反馈机制。但更重要的是，他们知道怎么判断面前这个人的能力层级，然后动态调整自己的管理颗粒度，这一点真的非常非常非常重要。任正非有一句话我觉得非常对。 “让听得见炮声的人来做决策。” 这句话在华为内部被反复提起，意思是总部不要替前线的人做每一个决定，你把战略方向定清楚，把资源配到位，具体怎么打让前线自己判断。因为前线的人最了解现场的情况，他们的即时判断经常比总部坐在会议室里的遥控指挥要准得多。这个思维方式，我觉得跟现在用AI是完全一样的。你给AI写一堆详细的步骤，就像总部在遥控指挥，每一步都给前线下死命令，这个方式看起来很缜密，但一遇到你没预料到的情况，AI就懵了，因为步骤里没有覆盖到这种case。你给AI一个清晰的目标，一套约束，然后让它自己决定怎么执行，这才是“让听炮声的人做决策”，AI也才真正有了自主决策的空间。但是，这里有一个前提。任正非这句话之所以在华为管用，是因为华为的人才密度够高。你让一个刚入职的应届生去听炮声做决策，他可能连炮声从哪边来的都分不清就被炮给轰死了。但如果你让一个打了十年仗的业务老将去做同样的事，他不光能判断方向，还能在混乱中即兴发挥出你想不到的打法。同一套管理哲学，对不同能力的人，效果天差地别。同样是管人，你跟一个初级运营说“把这篇文章排到今天下午三点发”，这是一个执行层的目标，明确、可验证、没有歧义。你跟一个经纪总监说“这个季度MCN要在XX这个平台做到垂类领域No.1”，这是一个策略层的目标，模糊但有方向，需要对方自己拆解。你跟一个合伙人说"我们今年要成为AI行业最有影响力的内容公司”，这是一个愿景层的目标，几乎没有执行路径，但它锚定了所有人的方向。三个层次，给不同的人。你把执行层目标给了一个合伙人级别的人，他会觉得你不信任他，觉得你在微操。你把愿景层目标给了一个刚来的实习生，他会完全不知道从哪下手，然后焦虑到失眠。给AI也是一模一样的。我做聚簇那两天的痛苦，根源就在这里。我给了一个策略层目标，但Opus 4.8在这个任务的维度上，需要的其实是更接近执行层的指引，管理方式和能力层级之间，错配了。但是，以上所有这些讨论，其实都还停留在我们当下、今天的游戏里。 AI、Agent、模型一定是会继续进化的。 Cladue Fable 5马上可能就要回来了，GPT-5.6也要上线了，可能要不了多久，Claude Fable 6、GPT-6也会来了。也许三个月后，也许半年后，你手上用的每一个模型都能接策略层的目标，都能自己设计方案，都能在你没想到的地方做出超出你预期的判断。甚至，未来还会出现合伙人级别的模型。到那个时候，当你面前坐着十几个合伙人级别的Agent，每一个都比你聪明，每一个都比你高效，每一个都能在它的领域里交出你想不到的方案。那你作为管理者，到底还有什么存在的理由呢？你的精力、你的思考、你的时间，到底应该投资在什么地方呢？这个问题，在这个小小的假期中，浮现了出来。我想了很久答案，最后，我想到了一个人，叫德鲁克，就是这个老头，被誉为现代管理学之父。他的思想，如果被归纳成一句话的话，我觉得就是： “管理者的工作，是思考应该思考什么。” 大多数人每天在做的事情，是思考怎么做这件事，怎么写更好的代码，怎么做更漂亮的PPT，怎么跑更快的模型，怎么写更精准的prompt，这些是执行层的思考，不用想，AI进步的速度在这些事情上比人快一个数量级，你从Coding和Agent的进化上就能看出来了。再高一层，是思考做什么。比如做哪个产品，切哪个市场，选哪个技术路线，这些是策略层的思考，Fable 5级别的模型已经开始在这个层面展现出惊人的能力了。但德鲁克说的不是这两层，他说的是第三层，“思考应该思考什么”。这一层的意思是，你有没有能力判断，在所有可能思考的问题里面，哪几个问题才是真正值得你坐下来想的。换句话说，我们每个人的注意力和精力都是有限的，我们到底应该如何保护自己的精力，聚焦在真正值得我们注意的问题之上。 AI时代，目前看，在逼着所有人往第三层走。因为第一层和第二层的思考，AI都会越来越擅长，你在这两层上的优势，会被模型能力的增长不断蚕食。只有第三层，什么问题值得想这个判断，AI过去、现在、未来都做不了。倒不是说AI不能帮你列出选项、做决策树、分析利弊，这些它绝对都能做，而且做得比你快。但最后那一下，在所有分析都摆在桌面上之后，你选A还是选B，这个选择背后站着的，是你这个人的价值观、你的审美、你对世界的理解、你愿意为什么承担代价。这些东西，是计算不出来的。因为它们不是计算问题，是选择问题。计算有最优解，选择没有。选择只有你选的和你没选的，然后你用你的余生去承受这个选择的后果。 AI可以穷举所有可能的路径，给你每一条路的概率分布和预期收益。但这条路值不值得走，这个判断，永远只能由一个真实活过的、痛过的、做过错误选择并且承受过后果的人来做。这就是为什么管理学读到最后，一定会走向哲学。你去看德鲁克后期的内容，越写越像搞哲学的，怎么做计划、怎么定KPI他也不说了，他开始聊什么是有效的人生、什么是值得追求的东西。还有稻盛和夫，他一辈子管理思想的核心就一句话，“作为人，何谓正确”，因为他发现，当你管理的层级足够高的时候，所有的商业判断到最后都会变成一个伦理判断，你到底相信什么，你愿意守住什么。所以我现在的想法是这样的。很多人觉得AI越强，人就越没用，但我觉得刚好反过来，AI越强，你被推到的管理层级就越高，从一个执行者的位置被推到管理者，从管理者被推到战略制定者，从战略制定者被推到一个更接近哲学家的位置。你会被这个时代逼着，越来越往上升职，而你能不能接住这个新的位置，取决于这些年，我们到底有没有在积累真正不可替代的东西。如果不能，那可能就会像五代十国里的石重贵和耶律德光，被时代无情的碾过，然后吞噬。真是一个残忍，又吃人的时代。

译作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制，消耗2000多万token，耗时一天屡次改阈值（0.72→0.71）、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结：管理AI与管理人本质相同——越强的模型（如Fable 5）给方向即可（愿景/策略层），越弱的模型（如Opus 4.8、GPT-5.5、GLM-5.2）则需更细执行层指引，错配层级正是痛苦根源。

歸藏(guizang.ai)@op7418 · 6月22日41

小道消息，他没说来源 Anthropic 已经完成了一个更强的 Mythos 模型的训练感觉训练是肯定不会停止的，就看是不是有了新的就会放出旧的了

译据消息，Anthropic 已完成更强版本 Mythos 模型的训练，具体名称可能是 Mythos 5.1 或 Mythos 6，尚未确定，计划可能内部保留以加速后续开发。引用推文指出，停止对外提供模型（如 Fable 5、Mythos 5）不会减缓进展，反而因释放资源可能加速；实验室在现有模型受限时仍可继续推进能力，前沿实验室必须持续训练更强大系统以领先开源与对手，GLM-5.2 已证明这一点。

Yuchen Jin@Yuchenj_UW · 6月22日28

I often see tweets saying “Claude performs better in OpenCode/Cursor than in Claude Code.” Is this actually true? Hard to believe Anthropic wouldn’t have the best harness for its own models, especially when OpenCode is open source. Would love to see some real examples.

译我经常看到推文说“Claude在OpenCode/Cursor中的表现比在Claude Code中更好。” 这真的是真的吗？很难相信Anthropic不会为自己的模型提供最好的适配，尤其是OpenCode还是开源的。希望能看到一些真实的例子。

SiliconFlow@SiliconFlowAI · 6月22日58

GLM-5.2 topped @Designarena's HTML Web Design leaderboard — beating Claude Opus 4.6 & 4.7, the long-standing #1. It's amazing and already available via SiliconFlow API! Start building →https://www.siliconflow.com/models/glm-5-2

译GLM-5.2 登顶 @Designarena 的 HTML Web 设计排行榜——击败了长期保持第一的 Claude Opus 4.6 & 4.7。非常出色，现已通过 SiliconFlow API 提供使用！开始构建 → https://www.siliconflow.com/models/glm-5-2

ginobefun@hongming731 · 6月22日57

http://x.com/i/article/2068851376151777280 # BestBlogs 早报 · 06-22｜Claude Code 负责人访谈、库克离场前苹果 AI 权力重构、GitHub 数据分析智能体在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语当编码不再是瓶颈，工程团队的真正考验变成了如何验证产出。今天的早报，三条精讲恰好从三个层面回答了这个问题。第一条来自 Anthropic Claude Code 负责人 Fiona Fung，她做客 Lenny's Podcast，抛出一个数据点：Anthropic 工程师如今每季度交付的代码量是过去的 8 倍，但她更想讲的，是当「能不能做出来」不再是约束之后，团队该如何运转。第二条把镜头转向苹果，硅谷101 受邀亲临 WWDC26 现场，复盘库克离场前苹果内部的 AI 权力重构，以及一家以「完美文化」著称的公司，如何在每周一个版本的 AI 节奏面前重新校准自己的价值观天平。第三条则是 GitHub 工程团队首次公开内部数据分析智能体 Qubot 的构建实录，用一套三层架构印证了一个朴素却关键的洞察：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。把这三条放在一起读，会发现它们其实是同一条主线的不同切面——当 AI 把「执行」这一环大幅压缩，组织的胜负手正在从「写代码的能力」转向「定义问题、验证产出和沉淀上下文的能力」。无论是 Fiona 把规范签入代码库让 Claude 自动校验，还是 GitHub 把数据知识按 bronze/silver/gold 分层喂给智能体，本质都是在为 agent 准备一套结构化、可被持续维护的上下文；而苹果的组织重构，则是在更高层面回答「谁来定义这套上下文与价值观」。速览与补充阅读里，还有图灵奖得主 LeCun 押注的世界模型之争、Cerebras IPO 引出的 AI 算力路线、DeepSeek 背后 356 人的人才白皮书、SFT 仍漏学 15% 训练数据的 ACL 论文，以及 GLM-5.2 登顶 Design Arena 等一批值得细看的内容，方向横跨研究、产业与一线工程实践，建议挑贴合自己当前关注的两三篇深读。 ## ★ 精讲一：打造全球最「All-in AI」工程团队：Anthropic Claude Code 负责人 Fiona Fung 的一线实践来源：Lenny's Podcast（VIDEO）｜评分 92｜在 BestBlogs 阅读本篇 Anthropic Claude Code 与 Co-work 负责人 Fiona Fung 做客 Lenny Rachitsky 的播客，开场就抛出一个足以让所有工程管理者停下来的数据：Anthropic 的工程师如今每季度交付的代码量，是 AI 工具普及之前的 8 倍。但她紧接着强调，真正值得讲的不是这个数字，而是「软件工程」这件事本身正在被重新定义。编码不再是瓶颈。这是 Fiona 反复回到的一句话。在她看来，AI 抬高了「任何一个人能做到什么」的天花板：在 Anthropic，产品经理、设计师和各个方向的工程师都在向代码库提交代码，约束已经从「我们能不能把它做出来」彻底转向了「我们如何验证做出来的东西是正确的、且真正有影响力的」。换句话说，能力的稀缺性下降了，判断力和验证能力的稀缺性上升了。一个「全员 All-in AI」的团队，日常究竟长什么样？Fiona 给了几个非常具体的画面。她自己有一个 Claude Code 远程会话，常驻运行在 Anthropic 所有代码仓库之上，让她对每个人在交付什么——PR、指标、线上事故——保持完整的可见性。她不再依赖人工的状态同步，而是用这些真实的代码活动和市场反馈，来支撑更有信息量的一对一沟通和月度复盘。她还重度依赖一类被称为 routines 的「定时智能体」：它们每天清晨醒来，扫描 Slack、邮件、合作伙伴渠道和社交媒体上的反馈，归纳出主题，甚至直接为一些打磨型的小修复生成 PR——她要做的，只是在早晨的咖啡时间审阅这些 PR，而不是手动去逐条分拣反馈。在「招什么样的人」上，她给出了两类画像。一类是有产品感的创造型构建者：他们对某个产品充满热情，能端到端地把东西做出来，痴迷地阅读用户反馈，并把体验打磨到令人愉悦——她称之为「造梦者」。另一类是深度的系统专家：在那些仍然需要专业验证和领域知识的环节，比如分布式系统，这类能力是她为 Claude Code 团队刻意去招募的。「现在理论上一切皆有可能，」她说，「问题变成了：你能有多大的野心？」那么如何在 8 倍速度下守住质量？Fiona 给的框架很朴素：区分 bad（不可恢复的错误，比如崩溃）和 sad（可恢复的痛点，比如界面闪烁），每个团队自行定义各自的阈值；再把规范（specs）签入代码库，让 Claude 能对照既定标准来校验 PR，叠加自动化监控，质量这一层就能随产出量一起扩展。她也坦诚地谈到一个意外的副作用——孤独感：「当我们都开始大量和自己的 agent 一起工作，它会慢慢变成一种孤独的体验。」团队的应对是结对编程式的午餐和黑客松，目的不是复刻老式结对编程，而是互相分享工作流，因为团队里每个人使用 Claude Code 的方式都出人意料地不同。放在今天这份早报的语境里，这篇的价值在于它给出了一手的、可被借鉴的「AI 时代团队操作系统」：常驻远程会话、自动生成 PR 的 routines、bad/sad 质量框架、用 JIT 月度计划取代半年路线图。它和后面 GitHub 的 Qubot、苹果的组织重构互为参照——当执行被压缩，组织的真正功夫都落在了流程、验证和上下文上。阅读建议：如果你正在带一支工程团队，建议把它当成一份可落地的实践清单来读，对照自己团队的瓶颈逐条取舍。 ## ★ 精讲二：库克的离场，苹果新 AI 权力重构与价值观天平｜WWDC26 来源：硅谷101（ARTICLE）｜评分 91｜在 BestBlogs 阅读本篇 2026 年 6 月 8 日，苹果在库比蒂诺 Apple Park 举办年度 WWDC——这是 Tim Cook 以 CEO 身份最后一次主持。按照官宣，他将于 9 月 1 日卸任，由硬件工程高级副总裁 John Ternus 接任 CEO，自己转任董事会执行主席。硅谷101 今年受邀亲临现场，这篇复盘最难得的，是它把一场「换帅 + AI 转身」的复杂博弈摆在了台面上。文章先讲清了组织权力的重新洗牌。两年前 Apple Intelligence 发布后数次延期，不仅让业界质疑苹果的 AI 研发能力，更引发了消费者虚假广告诉讼和股东证券欺诈诉讼。Gen Digital 首席 AI/创新官 Howie Xu 一针见血：苹果过去成功靠的是「一年憋一个大招」，但 AI 时代大概每周就该有一个 release，这套老打法可能不再适用。据彭博社报道，2025 年苹果高层完成了一次改写 AI 权力版图的人事变动：原本负责 AI 的 John Giannandrea 失去信任并最终离开；曾主导 Vision Pro 的 Mike Rockwell 接手 Siri，但在 Craig Federighi 的坚持下，AI 与 Siri 最终归属软件工程体系，Rockwell 向 Federighi 汇报，而非直接向 Cook 汇报；同时，苹果从外部挖来在谷歌待过 16 年、主导过 Gemini 的 Amar Subramanya 来主导自研模型。背后的真正分歧是：AI 到底是一个独立的新中枢，还是软件系统的一部分？技术层面，文章拆解了新一代 Apple Foundation Models（AFM）：两个端侧模型（30 亿参数的 AFM 3 Core 与 200 亿参数 MoE 架构的 AFM 3 Core Advanced），以及云端三件套（AFM Cloud、AFM Cloud Pro、ADM Cloud Image）。前苹果工程师 Nathan Wang 解释，端侧能跑 200 亿参数模型靠两项关键技术：稀疏 MoE 一次只激活约 10 到 40 亿参数，以及把部分固定参数放进闪存、按需动态加载，从而在内存有限的端侧设备上既省内存又省电——这正是苹果软硬一体优势的体现。值得注意的是，更强的端侧模型对硬件门槛极高，目前只能在 iPhone 17 Pro 系列、iPhone Air，以及内存达标的高端 iPad/Mac 上运行。云端最强的 AFM Cloud Pro 负责复杂推理和智能体工具调用，且是在谷歌云上专门为英伟达 GPU 优化的。这篇为什么值得今天读？因为它提供了一个与精讲一形成镜像的样本。Fiona 的 Anthropic 代表了一种「执行成本趋近于零、组织全力拥抱变化」的极端；而苹果代表了另一种张力——一家把「完美体验」刻进基因的公司，在 AI 革命面前如何重新平衡「用户体验」和「产品创新」这架天平。多位硅谷专家点评本次 demo「不够 agentic」，华尔街观望致股价跌超 5%，都说明这场转身远未完成。阅读建议：想理解大公司在 AI 时代的组织阵痛与战略取舍，这篇带现场视角和内幕的深度复盘是很好的标本，可以重点看组织重组和自研模型两节。 ## ★ 精讲三：我们如何构建内部数据分析智能体来源：The GitHub Blog（ARTICLE）｜评分 90｜在 BestBlogs 阅读本篇「数据自助化」是数据团队追了几十年都没真正解决的难题。GitHub 工程团队这篇文章，首次公开了他们的内部数据分析智能体 Qubot 的构建实录：它让任何一位 Hubber（GitHub 员工的自称）都能用自然语言询问数据仓库里任意数据模型的问题，并在几秒内得到答案。文章一开始就把定位讲得很清楚——Qubot 不是报表工具，也不是仪表盘的替代品，它面向的是探索式提问，比如「这个功能上，哪一群用户的留存最高？」或者「上周是哪个产品最大程度地拉动了这个指标？」架构由三个主要部分组成。第一层是多入口的用户界面：Qubot 可以通过 Slack、VS Code 和 Copilot CLI 访问。Slack 无需任何配置，是 Hubber 们最常用的协作工具——在 Qubot 频道里发问，系统会在 github.com 上拉起一个 Copilot Cloud Agent 实例，答案直接回到 Slack，方便分享，也能在 thread 里继续追问、refine 问题；所有结果还会以 markdown 报告的形式存进一个 PR，供后续微调查询或接入仪表盘。第二层是联邦化的上下文层，这也是全文最关键的一节：数据仓库按 bronze（原始事件）、silver（规整后的事实与维度）、gold（面向具体业务场景的精选数据集）分层，上下文层则针对每一层「量身定制」知识——bronze 是产品团队贡献的遥测上下文和元数据，silver 是数据团队维护的查询示例、使用指引与强制过滤条件，gold 是数据集 owner 提供的业务规则和指标定义；上下文在运行时通过 GitHub MCP Server 加载。为持续丰富这一层，他们还做了一个 context agent，让各团队用标准化模板或引用仓库的方式贡献知识，再由 agent 自动摄取、组织、规范化。文章给出的关键洞察是：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。这把「上下文工程」从一句口号变成了可量化的工程结论。把它和今天另外两条精讲对照着读会更有意思——Fiona 强调把 specs 签入代码库让 Claude 对照校验，本质也是在为 agent 喂结构化上下文；而苹果的组织重构，某种意义上也是在重新定义「谁来定义和维护那套上下文与规则」。阅读建议：如果你正打算在企业内部落地数据类或分析类 Agent，建议精读上下文层和 context agent 两节，把它当成一份分层上下文治理的参考蓝图。 ## 速览下面是今天另外 7 篇同样值得一读的精选内容，覆盖世界模型、AI 算力、人才结构、训练机理与工程实践等多个方向。 [AINews] GLM-5.2 货真价实；Z.ai 预测年底前推出 Open Fable（来源：Latent.Space，评分 90）。这期 AINews 把笔墨给了 GLM-5.2：它被视为首个真正通过「这是一个恰好开源的前沿模型」直觉检验的开放权重模型，并得到了独立从业者和多个样本外基准的交叉验证——作者特别提到，GLM 5 过了这道关、GLM 5.1 没过，而 5.2 的「手感」明显不同。文章顺带勾勒了从模型到智能体工具链的转变、新的自动化原语，以及一个更贴近现实的智能体知识工作基准。Z.ai 持续被验证为真正的前沿实验室，下一个里程碑是「开源何时能拿出一个 Fable 级模型」。在 BestBlogs 阅读本篇图灵奖得主押上 10 亿美元的「世界模型」，是 AI 的下一个十年？（下）（来源：十字路口Crossing，评分 90）。这篇深入解析了图灵奖得主 LeCun 押注的 JEPA 世界模型路线。他断言「VLA 必死」，但现实是当下最惊艳的机器人（能削西葫芦、倒垃圾）恰恰用的是 VLA 架构，而 JEPA 挪开一个杯子要花整整 60 秒。文章逐层对比 VLA 与基于 JEPA 的替代技术栈——从 V-JEPA 2 视觉编码器，到用 JEPA 重述 VLM 的训练方式，再到机器人规划与控制——既展示了 JEPA 在视觉编码与效率上的优势，也坦诚了它在机器人控制上的明显短板。难得地把一场技术豪赌的两面都摆上了台面。在 BestBlogs 阅读本篇从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事（来源：晚点AI，评分 88）。这篇访谈 Cerebras 早期投资人周楠，回顾了百度美国研究院在 2016 年前后对 AI 算力瓶颈的前瞻判断——当时吴恩达任负责人，Anthropic 创始人 Dario Amodei 也曾在那里工作，团队很早就形成了「更大模型、更多数据、更强算力」的共识。文章解释了 Cerebras 的 Wafer-Scale 架构价值（把整片晶圆做成一个超大 AI 计算引擎，减少数据搬运），以及它作为英伟达在推理等特定负载上挑战者的真实定位。最值得回味的一句是：当所有人都在追逐 AI，真正稀缺的不是相信 AI，而是判断下一个发展瓶颈。在 BestBlogs 阅读本篇 DeepSeek 背后的 356 人：一份白皮书揭开中美 AI 人才战争（来源：AINLP，评分 88）。斯坦福胡佛研究所与 HAI 更新白皮书，用论文作者网络（而非员工名单）追踪 DeepSeek 七篇核心论文（从 2024 年 1 月的开源 LLM 一路到 2026 年 4 月的 V4 预览版）背后 356 名研究和工程贡献者的职业轨迹。结论很有意思：核心 31 人保持稳定，说明技术路线没有频繁断裂；而「一篇论文贡献者」从 23 人增至 136 人，说明 DeepSeek 能把外部或边缘任务能力快速接进主线研发。这种「稳定核心 + 快速补员」的分层结构，比任何模型榜单都更能解释它的持续产出能力。在 BestBlogs 阅读本篇 ACL 2026 | 腾讯混元发现「不完全学习」，SFT 仍漏学 15% 训练数据（来源：PaperWeekly，评分 88）。腾讯混元与 UNSW 联合团队在 ACL 2026 发表论文，系统性地揭示了一个被忽视的现象：即便 SFT 训练已收敛、loss 已平稳，模型在训练集上重测平均仍有 15.3% ± 2.1% 的样本答不对，作者将其命名为「不完全学习现象（ILP）」。更值得警惕的是，这些未学习样本并非随机分布，而是系统性地集中在罕见实体、多步推理、与预训练知识冲突等最有价值、最难标注的复杂样本上。论文进一步给出了从检测、归因到干预的完整框架，对所有做垂直领域微调的团队都有直接的成本与可靠性启示。在 BestBlogs 阅读本篇如何围绕公司隐性规则设计智能体系统（来源：HBR.org，评分 89）。这篇用一个金融服务的真实案例切入：一位高净值客户更新受益人信息，AI 路由、运营处理、沟通确认每一步都「按设计正确执行」，但一个月后客户却把账户转去了竞争对手。问题在于，经验丰富的顾问能从一次次季度沟通中读出 CRM 字段里没有的「对话信号」，而这恰恰是当前智能体系统的盲区。文章主张，对 AI 智能体而言最关键的组织智慧并不在文档化的流程里，而是隐含在由知识、动机和判断力构成的非书面系统中，并为此提供了一个设计框架。和精讲三的「上下文层」遥相呼应——只是这次讲的是那些难以结构化的隐性上下文。在 BestBlogs 阅读本篇 AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码（来源：宝玉(@dotey)，评分 90）。这是一篇高质量原创 Thread，针对「如何让 Agent 生成的代码更好地满足需求、减少新版本上线后的不稳定、并实现线上问题的自动化修复」，给出了系统性的工程实践建议：需求分析要提供充足上下文、系统设计拆分里程碑并用 plan 模式对齐共识、代码审查拆细且 Agent 审查加人兜底、自动化测试覆盖并接入 CI、灰度发布与 feature flag、建立 CI/CD 自动化部署与回滚机制。核心观点很实在：与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 少发生。可以和精讲一里 Fiona 的「bad/sad 框架 + specs 入库」对照着读。在 BestBlogs 阅读本篇 ## 补充阅读以下几篇适合按兴趣选读，覆盖企业级 Agent 落地、提示词工程、模型评测与产业观察。 - AI 智能体让 OpenAI 的数据变得有意义（InfoQ，评分 90）：详细介绍 OpenAI 如何构建内部数据分析智能体 Kepler，利用丰富的数据上下文、记忆与评估来回答横跨 7 万个数据集的复杂问题。和今天 GitHub 的 Qubot 几乎是同一道题的两种解法，适合做企业数据 Agent 的团队对照阅读。在 BestBlogs 阅读本篇 - 面试官：「你看过 Claude Fable 5 系统提示词吗？」（小林coding，评分 89）：以网传泄漏的 Claude Fable 5 系统提示词为范本，逐段拆解其工具定义、知识边界、安全红线与交互风格，提炼出可直接用于 AI Agent 与提示词工程的实践原则。适合想从一线产品的「内部手册」反推提示词工程方法的读者。在 BestBlogs 阅读本篇 - GLM-5.2 如何在 Design Arena 中击败了 Fable 5（Draco正在VibeCoding，评分 88）：GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中登顶，成为首款 MIT 授权的开源冠军，价格仅为对手的零头。文章逐案例分析了它避开常见编码错误、生成更精致页面的具体表现。和速览里的 AINews 互为补充，关心开源模型进展的可一并读。在 BestBlogs 阅读本篇 - 「机器学习之父」Jordan：Hinton 等「思想领袖们」正在伤害年轻一代（机器之心，评分高分推荐）：Michael I. Jordan 尖锐批评 AI 领域的「思想领袖」文化，认为 AGI 是公关术语、末日叙事正在伤害年轻一代，并主张用统计学、经济学与计算机科学三足鼎立的框架重新定义 AI 研究。适合想跳出热点、听一听清醒批判声音的读者。在 BestBlogs 阅读本篇 - 对话王小川：造医生，战豆包，与无尽的 AI 非共识（硅星人Pro，评分高分推荐）：王小川系统阐述百川智能聚焦 AI 医疗的战略逻辑——面对通用模型的冲击，选择以「造 AI 家庭医生」为切入点，通过医学增强模型和与顶级医院深度共创，在供给端创造新价值，而非在 Coding 等共识赛道内卷。适合关注 AI 产业差异化打法的读者。在 BestBlogs 阅读本篇 - 从零构建受 OpenClaw 启发的 AI 智能体（freeCodeCamp.org，评分 90）：一套基于 Next.js 与 Vercel AI SDK 的端到端实战课程，在同一运行时中整合上下文高效的工具、用户级记忆、持久人格、Telegram 接入与定时工作流。适合想动手把「Agent 架构」从概念跑通到能部署的开发者。在 BestBlogs 阅读本篇 ## 今日阅读路径如果你今天时间有限，建议按下面的顺序读这 3 篇： 1. 精讲一 · Anthropic Claude Code 负责人 Fiona Fung 的一线实践（Lenny's Podcast）——先建立「编码不再是瓶颈、约束转向验证」这个总框架，它是理解今天大半内容的钥匙。 1. 精讲三 · 我们如何构建内部数据分析智能体（The GitHub Blog）——再看一个可落地的工程样本，理解「结构化上下文让答案又快又准」这一关键洞察。 1. 精讲二 · 库克的离场，苹果新 AI 权力重构｜WWDC26（硅谷101）——最后用苹果这个大公司样本，看「拥抱变化」与「守住价值观」之间的真实张力。读完这 3 篇，再回到速览与补充阅读里，挑 1 到 2 篇最贴合你当前方向的内容做延伸阅读即可，不必贪多求全。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍，采用常驻远程会话和定时 agent 自动生成 PR，以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任，John Ternus 接任；AI 权力重构：John Giannandrea 离开，Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报，从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced，云端 AFM Cloud Pro，端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot，采用三层架构，返回正确答案速度提升 3 倍。

Chubby♨️@kimmonismus · 6月22日50

friends, i got the feeling that coming week will be super duper exciting.

译Anthropic 的 Mythos 模型更强大版本已结束训练。Mythos 于 4 月 7 日通过 Project Glasswing 上线，仅两个月后即迎来新迭代。目前仍存三点疑问：新版是否仍通过 Project Glasswing 发布；性能相比 Mythos‑1 提升多少；能否通过 Fable 5.1（或后续命名）获得权限。消息来自可靠信源 Andrew Curran。

Rohan Paul@rohanpaul_ai · 6月22日65

The Economist: NSA leadership said that Anthropic’s Mythos helped break into “almost all” classified systems in hours, not weeks. The author also clarified that Mythos almost certainly worked with other tools under special test conditions. It is still alarming:

译经济学人报道，NSA 局长告知参议院情报委员会，Anthropic 的 AI 智能体 Mythos 在数小时内（而非数周）攻破了“几乎所有”机密系统。但文章作者 Shashank Joshi 澄清，该说法来自转述，且 Mythos 几乎肯定是在特殊测试条件下与其他工具协作完成的。他称原意是体现 Mythos 的强大能力，但未附加免责说明是个失误。

Chubby♨️@kimmonismus · 6月22日43

A new, more capable version of Anthropics Mythos has emerged from training. In itself, this is nothing out of the ordinary. What else would we expect? That Mythos is already the end? Of course not. It's just the beginning. What's exciting here is the speed. Mythos was only made available on Project Glasswing on April 7th. Two months later, the next iteration. Two things remain unclear: 1) Will the new version also be available on Project Glasswing? 2) How much better is it than Mythos-1? 3) Will we get access with Fable 5.1 (or whatever it ends up being called)? Andrew Curran is one of the most reliable sources. This can be considered true.

译Anthropic 的 Mythos 模型新版本已完成训练，距 4 月 7 日 Mythos‑1 通过 Project Glasswing 发布仅两个月。可靠消息源 Andrew Curran 确认新版更强，但名称（Mythos 5.1 或 Mythos 6）及是否公开尚不明确，也可能仅用于内部加速开发。目前不确定新版本是否通过 Project Glasswing 提供，以及用户能否通过 Fable 5.1 访问。引用推文称，停止 Fable 5 或 Mythos 5 的公开服务反而可能通过释放资源加速开发，前沿实验室必须持续训练更强模型以保持领先。

Chubby♨️@kimmonismus · 6月21日38

So we get Claude-Sonnet-5 instead of Fable 5 soon. Looks like a busy week: probably GPT-5.6 and Sonnet 5. But hey, keep em coming!

译所以我们很快就会得到 Claude-Sonnet-5 而不是 Fable 5。看起来是忙碌的一周：可能会有 GPT-5.6 和 Sonnet 5。不过嘿，继续来吧！

宝玉@dotey · 6月21日68

翻译还是得用 Gemini 3.1 Pro 最好，翻译质量是没办法通过工作流弥补的，Opus-4.8 自身写作能力不行翻译的总是很生硬

译宝玉认为翻译质量 Gemini 3.1 Pro 最好，Opus-4.8 自身写作能力不行导致翻译生硬，工作流无法弥补。@LinearUncle 分享 Claude Code 方案：设置 `/effort` 为 `ultracode` 后自动触发动态工作流，包括三位译者各出一稿、双语编辑评审、综合定稿、逐句校对，并用 Claude Code History Viewer 查看历史记录。

数字生命卡兹克@Khazix0918 · 6月21日21

Anthropic突然大赦天下了，居然把我24年初就被封掉的Google账号解封了，怒氪200刀，我的Claude账号和Google账号终于对上了，也终于可以用Claude原生的chrome插件随便的进行浏览器操控了。。。所以，我现在有2个200刀的Max账号了，赶紧蹬...

译用户卡兹克24年初被封的Google账号被Anthropic解封，随即充值200美元。目前该用户拥有两个分别充值200美元的Claude Max账号，并可使用Claude原生Chrome插件进行浏览器操控。

AYi@AYi_AInotes · 6月21日45

一个自学编程的人，用 Claude Code 破解了3500 年前克里特岛的 Linear A 文字🤯 过去三年我们一直在说 AI 会取代人类专家，Linear A 这个案例恰好反过来了，一个自学工程师用 Claude Code 写了几百行 Python，交叉比对两个公开数据库，输出了一套 408 词的词典，但他从头到尾没让 AI "自己判断"，所有假设都是他提的，AI 只负责跑验证。 Tom 用的方法很朴素：

François Chollet@fchollet · 6月21日65

The more you embrace AI, the more you need SaaS. This is not obvious to armchair market analysts who love disruption narratives, but it is obvious to people actually running companies.

译François Chollet 指出，越拥抱AI，就越需要SaaS。Box CEO Aaron Levie 将 Salesforce 的 MCP 服务器接入 Claude Code 后，Salesforce 使用量达到此前的5倍。他开始查询以往懒得手工操作的客户和市场情报。智能体消除了操作摩擦，底层系统被更多查询而非取代。对持有 $CRM 的投资者而言，智能体时代是用户参与度的顺风车，而非颠覆风险，前提是数据平台能承载查询负载。

ginobefun@hongming731 · 6月21日49

http://x.com/i/article/2068480429980876800 # BestBlogs 早报 · 06-21｜李飞飞预言职场哑铃化，Tokenmaxxing 三月退烧，Claude Code 上下文注入全解析 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。在线阅读本期早报 ## 导语过去三个月，硅谷经历了一场速度罕见的叙事反转。三月，token 消耗量还是验证「AI 超级个体」身份的硬通货——OpenAI 工程师一周烧 2100 亿 token，Claude Code 重度用户一个月能花掉 15 万美元，黄仁勋甚至公开喊话「年薪 50 万的工程师，token 支出低于 25 万就该让人担心」。可不到两个月后，Amazon 关掉了内部 AI 排行榜，Uber 提前烧光了全年 Claude Code 预算开始质疑 ROI，微软计划把 Experiences + Devices 部门的工程师迁回自家工具。今天的精讲二就拆解了这场「Tokenmaxxing 退烧」背后的硬数据：Agentic coding 的真实 token 消耗是普通问答的约一千倍，七成耗在反复试错的「Explore」和「Fix」阶段；写代码效率确实涨了 180%，但传导到真正发布上线时只剩约 30% 的增量——上游烧得越猛，下游瓶颈暴露得越彻底。另一条线索更关心「谁会被这场变化重新分类」。李飞飞与 MasterClass 创始人 David Roger 在精讲一里提出「哑铃效应」：当文本智能的成本逼近零，劳动力会向两端坍缩——一端是审美与技艺不可复制的顶尖工匠，另一端是能调度 AI 完成端到端任务的高能动性通才，中间地带持续萎缩。这个判断和速览里那篇「AI 十倍提效却升不了职」的反思形成了有趣的呼应：交付得越快，反而越容易被钉死在「执行者」的位置上。而精讲三给出的是一份扎实的工程答案——Claude Code 的八种上下文注入机制，到底该怎么分工，才能既不浪费 token，又不让 Agent 在长任务里跑偏。三条主线放在一起看，正好覆盖了这一轮 AI 叙事退烧之后，真正该关心的三个问题：钱花在哪儿了，人该站在哪儿，工程该怎么搭。 ## ★ 精讲一：AI 教母预言：10 年后只剩两种工作者原文链接：AI 教母预言：10 年后只剩两种工作者（Silicon Valley Girl）这场对话的起点是一个被反复滥用的简化论断：「智能的成本正在归零」。李飞飞直接挑战了这个框架——人类能力远比文本和语言丰富得多。她引用的原话是：「体力劳动、认知劳动、情感劳动——人类的活动与人类智能深度交织，而这在自然界仍是一个远未解开的谜题。」大语言模型在逻辑语法、商业智能和代码生成上确实出色，但它们本质上受限于语言、且是有损的。真正的智能需要进化用 5 亿年打磨出的多个维度：感知智能（捕捉环境细节）、空间智能（在三维或四维世界中理解、推理、生成并物理交互）、情感智能（驾驭故事、共同价值与深度共情）。由此引出这场对话最核心的论断——MasterClass 创始人 David Roger 提出的「哑铃效应」：随着文本智能的成本持续下降，企业组织正在经历一次结构性分化。一端是「顶尖 1% 专家」：拥有不可被基线模型模拟的情感与视觉深度的大师级工匠，靠的是精湛技艺与专业判断力；另一端是「高能动性通才」：能部署定制化 AI 层、独立处理复杂端到端任务的多面手，靠的是战略判断与对技术的深度自如。中间地带——那些既不顶尖、也不够通才的岗位——正在持续坍缩。这个结构性转变已经在硅谷的核心岗位上显现：传统上不写代码、负责协调工程团队与市场的产品经理，现在已经在用 AI 工具直接搭建和编写自己的原型，产品生命周期被大幅压缩。教育系统里的采纳差距同样明显。过去六十年的数据证明，一对一的人类教学始终是学习效果的黄金标准，只是过去因为成本太高而无法普及。如今交互式 AI 平台能用极低的成本模拟出这种个性化环境——研究显示，结构化使用 AI 能让学生在少 60% 的时间内掌握同等知识量，而完全禁止使用这些工具的教育系统，可能会让学生落后适应性环境整整十年。李飞飞和 David Roger 都强调，教育的目标绝不能被简化为标准化考试分数或闭卷合规，而应该聚焦于培养能在高度数字化的文明中过上有意义生活的人。对于深陷技术焦虑的从业者——医疗工作者、会计、教育者——正确的应对从来不是回避。历史上的技术范式转移（比如电子表格的出现）反复证明，拒绝适应工具的专业人士会承受严重的经济和系统性代价；反过来，适应工具能解锁一种深刻的自我驱动的创业精神。建立这种自主性，需要从追求结构化、寻求表扬的习惯，转向对风险的高容忍度和直面失败的意愿。李飞飞给非技术背景的人的建议很具体：找一个 25 岁以下的数字原生代，花一个周末坐下来观察他们如何下意识地用这些工具解决真实问题——这比抽象的恐惧更能帮你建立起对技术的真实手感。这篇视频和今天另外两条精讲构成了一个完整的拼图：哑铃效应解释了「人该站在哪个位置」，Tokenmaxxing 退烧解释了「钱为什么没有带来对应的产出」，Claude Code 的上下文注入机制则给出了「想成为高能动性通才，具体该怎么动手」的工程答案。 ## ★ 精讲二：三个月，一场必然失败的 Tokenmaxxing 原文链接：三个月，一场必然失败的 Tokenmaxxing（腾讯科技）纽约时报记者凯文·罗斯在 3 月 20 日最早发现了硅谷开发者中的 Tokenmaxxing（token 利用最大化）现象：OpenAI 工程师一周用掉 2100 亿 token，相当于 33 个维基百科的体量；Claude Code 重度用户一个月能烧 15 万美元。程序员在 X 上开始比拼 token 用量，把它扭曲成一种「AI 超级个体身份」的标识——用得越多，证明你越能驾驭多线程并行工作。4 月，这个概念被互联网公司全面接纳：黄仁勋在 GTC 上喊出「年薪 50 万的工程师 token 支出低于 25 万就该让人担心」，Y Combinator CEO Garry Tan 称自己「tokenmaxxing 的时间比大多数人都长」，迪士尼、Visa、阿里、腾讯、字节都陆续把 token 额度和 AI Coding 工具开放给普通员工。但不到两个月，风向就变了。据《金融时报》5 月 29 日报道，亚马逊关闭了内部 AI 使用排行榜 Kirorank——因为有员工为了刷榜，让 AI agent 去执行毫无实际价值的任务，纯粹堆 token 消耗量。Uber COO Andrew Macdonald 在播客里直言，公司看不到 token 消耗和「更多有用的消费者功能」之间的直接对应关系：Uber 去年底部署 Claude Code 后，95% 的工程师每月都在用、70% 的提交代码来自 AI，但每个工程师每月 500 到 2000 美元的 API 调用费，让公司在 2026 年 4 月就烧光了全年预算。微软同期计划在 6 月底前取消 Experiences + Devices 部门大部分 Claude Code 内部授权，把工程师迁回自家的 GitHub Copilot CLI——本质上是规模化账单已经难以控制。这场退烧背后有三组扎实的研究数据支撑文章的判断。第一组来自谷歌和微软 4 月联合发表的论文《AI Agent 是怎么烧你钱的？》（arXiv 2604.22750）：Agentic coding 的 token 消耗是普通代码问答的约一千倍，而且成本主要来自输入而非输出——钱大多花在模型反复读取上下文上。论文把 Agent 工作拆成五个阶段：Setup（9.98%）、Explore 探索代码与根因（30.37%）、Fix 修改调试（33.53%）、Validate 测试验证（16.59%）、Closeout 收尾（9.53%），其中 Explore 和 Fix 合计占了约三分之二的消耗，而且同一任务不同尝试之间的 token 消耗最高能差出 30 倍——模型自己也算不准该花多少钱。第二组来自哈工大 5 月底的论文，提出「有效反馈计算」（EFC）概念衡量 Agent 行动的真实效率，结果显示在复杂任务中大多数 Harness 的 EFC 转化率低至 0.1——花 100 块钱取证，只有 10 块真正买到了能改变下一步的线索。第三组数据更直接地回应了「写代码变快了，为什么产品还没变多」这个问题：MIT 在 2026 年 5 月发表的《Writing Code vs. Shipping Code》（NBER w35275）分析了 10 万多名 GitHub 开发者的数据，发现自主 coding agent 能让 commits 累计增加约 180%，但这个增量传导到项目数时只剩约 50%，传导到真正的 releases 时只剩约 30%——写代码和交付代码根本不是一回事，上游红利在下游审核、测试、发布、用户采用这些没有同步加速的环节里被大幅稀释了。文章把这一切归结为经济学里早已存在的「生产率悖论」：复杂产品由一组互补要素决定，任何一个要素都能成为瓶颈，只有当数据、流程、人员、评测和责任体系逐渐成熟后，前期的 token 投入才可能开始产生回报。这也呼应了精讲一的哑铃效应——能不能成为「高能动性通才」，恰恰取决于你是否理解这些瓶颈在哪里，而不是单纯比拼调用了多少 Agent。截止六月，几乎所有曾无上限投入 Tokenmaxxing 的公司都已经调整方案，这场应用层 AI Hype 在三个月内基本终结，但文章也提醒，它的失败并非毫无意义——这正是企业为趟出真实瓶颈而必须支付的代价。 ## ★ 精讲三：深入理解 Claude Code：上下文注入机制全解析 ![Claude Code 上下文注入机制对比](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/d734d4b2125caa78.png) 原文链接：深入理解 Claude Code：上下文注入机制全解析（赛博禅心）如果精讲二讲的是「token 为什么被浪费」，这篇文章讲的就是「怎么从工程上少浪费」。文章的出发点很朴素：大模型的工作原理本质就是「塞进去足够的上文，模型就能给出足够好的结果」，而 Agent 和 ChatBot 的核心区别在于「谁来构建上下文」——ChatBot 靠人喂材料，Agent 会自己搜网页、读文档、调工具，把有用的内容写进上下文。正因如此，用工程手段限定 Agent 在哪些步骤能看到哪些东西，就变得格外重要，这正是 CLAUDE.md、Skills、Subagents、Hooks 等一整套上下文注入方法存在的原因。文章按生命周期把这些方法拆解得很清楚。CLAUDE.md 是唯一「全程加载、全程占 token」的方法，适合放 Claude 随时需要知道的「事实」——构建命令、目录结构、团队约定，而不该塞流程性的 30 行清单，因为子目录 CLAUDE.md 只在碰到对应目录时才加载，压缩后会丢失，再次碰到时重新加载。Skills 的设计则聪明得多：启动时只加载名字和描述，几十个 token 的事，完整内容等被调用时才进上下文，用完后如果 token 预算超限，最早调用的 skill 会被踢掉——这是「流程」该待的地方，比如部署清单、发布流程、review checklist。Subagents 则是另起一个独立上下文窗口跑任务，跑完只把摘要交回主会话，从主会话角度看上下文成本几乎为零，特别适合深度搜索、日志分析、依赖审计这类需要大量中间结果但不需要保留的脏活累活。Hooks 是这套体系里最不像 AI 的机制——它是代码，由 harness 在外部确定性执行，完全绕开模型的判断力，覆盖从 PreToolUse 到 SubagentStop 的八种事件，如果某件事绝对不能发生（比如误执行 rm -rf），就该用 Hook 做硬护栏，而不是寄希望于提示词约束。文章特别点出了几个常见误区，对应到的解决方案很直接：「每次 X 必须做 Y」该用 PostToolUse hook 而不是写进 CLAUDE.md；「绝对不要做 Z」该用 PreToolUse hook 的 exit code 2 硬拦截；Rule 没加路径限定就等于全程占 token，跟写进 CLAUDE.md 没区别。这套分工逻辑的本质，是给不同类型的指令匹配不同的生命周期——有的需要全程在场，有的只在特定场景出现，有的用到才加载，有的在独立窗口里跑，有的完全不占上下文。文章最后引出了 Anthropic 最近发布的 Dynamic Workflows（动态工作流）能力：让 Claude 自己写编排脚本，协调多个 Subagent 并行工作，专门用来解决默认 Harness 的三个老问题——「偷懒」（安全审查要查 50 项，查到第 35 项就宣布完成）、「自我偏好」（让 Claude 检查自己写的代码，它倾向于觉得没问题）和「目标漂移」（长会话每次压缩都是有损的，边缘约束容易在压缩中丢失）。Dynamic Workflow 靠独立上下文窗口隔离每个子任务，从结构上消解这三个问题，常见的编排模式包括 Classify-and-act（先分类再分发给专用 Agent）、Fan-out-and-synthesize（拆成 N 个子任务并行后汇总）、Adversarial verification（执行 Agent 配验证 Agent 对抗检查）等六种。这和精讲二里 Nadella 提出的「Token 资本」概念其实是同一枚硬币的两面：真正能沉淀价值的不是烧了多少 token，而是有没有把这些上下文注入方法用对位置——这恰恰是精讲一里「高能动性通才」最具体的工程画像。 ## 速览 [The Factory Model：Coding Agents 如何改变软件工程](https://www.bestblogs.dev/article/43750e7e) ![软件工厂模型抽象层级](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/c6857fd7541456d6.jpg) 谷歌工程师 Addy Osmani 提出「软件工厂模型」：当 Coding Agent 从补全、对话式协作走向长时间自主执行，工程师的工作重心正从「亲手写代码」转向「设计一个能产出软件的系统」。文章把 AI 编码工具分成三代——加速版自动补全、同步式智能体、自主智能体，并强调架构理解、规格说明、测试和判断力并未过时，反而因为会被放大到几十个并行 Agent 上而变得更重要：模糊的 spec 会在规模化执行中被乘法式放大成混乱，而 Red/green TDD 这种老派纪律，在 Agent 工作流里已经接近必需品。这篇文章和精讲三的上下文注入机制是一对很好的搭配——一个讲清楚「为什么规格说明现在比代码本身更值钱」，另一个给出了「怎么用工程手段管住 Agent 不跑偏」。 [AutoJack：单个页面如何让运行 AI 智能体的主机沦陷](https://www.bestblogs.dev/article/9ac31e0e) ![AutoJack 攻击链全流程](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/f93810d70ed98479.webp) Microsoft 安全团队披露了 AutoGen Studio 里的一条利用链 AutoJack：一个具备浏览能力的本地 AI Agent，会被攻击者诱导渲染恶意页面，页面里的 JavaScript 直接向本地 MCP WebSocket 发起连接，绕过 Origin 校验和鉴权中间件，把任意命令当作 MCP 服务器参数执行，最终在开发者账户权限下实现远程代码执行。三个独立的薄弱点——Origin 白名单信任本地却没意识到 Agent 本身就是「本地」、鉴权中间件对 MCP 路径开了后门、URL 参数直接被当作命令行执行——叠加在一起，就构成了完整攻击链。该问题在正式发布前已被修复，pip 安装的版本不受影响，但文章给出的通用教训值得记住：当一个 Agent 既能浏览不可信内容、又能访问本地特权服务时，localhost 就不再是可信边界，必须对每一个控制平面做身份校验和权限隔离。 [让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理](https://www.bestblogs.dev/article/650de739) ![快手开关治理双引擎架构](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/9e7f39a3307b9ce8.jpg) 快手资深架构师闫文亮在 QCon 分享了一套用 AI 治理 Feature Flag 技术债的完整实践。快手短视频主业务每秒调用开关次数高达 155 亿次，早期直接调用大模型批量修改开关代码，正确率只有 70%-80%，会出现误删方法、改反逻辑这类高风险错误。团队随后搭建了「大模型生成 + AST 引擎校验」的双引擎架构：大模型负责处理代码的模糊性，AST 引擎用规则加有向图重新改一遍代码做交叉验证，两者结果一致才算通过，不一致才转人工——这把审核压力从「每次都要人看」变成「只在分歧时才需要人看」。系统进一步引入双 Agent 自进化机制，让 AI 自己分析 Bad Case 该优化 AST 引擎还是检测插件，目前已累计自动下线 1500 个开关、删除六万多行代码，准确率 98% 以上、线上零故障。这套「不确定性探索 + 确定性校验 + 自进化闭环」的范式，本质上是一个可复用的技术债治理框架，也是精讲三「Hook 做确定性护栏」思路在更大规模治理场景下的工程印证。 [智能体技术栈](https://www.bestblogs.dev/article/9e584322) Vercel 发布了 Agent Stack，把构建生产级 Agent 所需的核心能力打包成一套集成构建模块：AI SDK 提供调用任意模型的统一接口，AI Gateway 充当「token 的 CDN」跨数百个模型路由并追踪成本，Workflow SDK 给每一步任务做检查点、保留状态、自动重试。文章的核心诉求很直接——开发者不该被迫在厂商锁定、自己拼接方案、自建抽象层之间三选一。这与精讲二里企业开始把 token 消耗和「可沉淀的企业级 AI 能力资产」挂钩的趋势是同一条逻辑，只是这次给出的是基础设施层的具体落地方案。 [哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人](https://www.bestblogs.dev/article/43f4b5a3) ![黄碧薇谈因果世界模型](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/2897f415ded17e1d.png) Aether AI 创始人黄碧薇刚完成 2000 万美元天使轮融资，她在播客里指出「世界模型」这个 2026 年最热的词，定义其实非常不统一——视频生成、3D 生成、V-JEPA 都被笼统归入这个范畴，但侧重点完全不同。她给出的定义是：世界模型必须理解物理规律和因果关系，能模拟世界如何基于时间或动作从当下状态演变到下一个状态。从马普所到 CMU 再到 UCSD 深耕因果发现 12 年后，她选择把「更合理但更难实现」的因果 AI 路线带进具身智能领域，第一个落地场景就是具身大脑。对正在思考下一代 AI 范式从哪里出现的读者，这是一份扎实的技术路线图。 [使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？](https://www.bestblogs.dev/article/0bcff377) 作者分享了一个相当讽刺的真实经历：靠 AI 把交付速度提到「superhuman pace」，却两次升职失败。他的反思是，自己在老板眼里变成了「手」而不是「脑」——交付太快太可靠，反而被派来越来越零散、方向多变的任务，最终因为说不清楚「过去一年到底做成了什么」而在晋升评审里吃亏。文章用管理学里的「奖赏系统」概念解释了这个陷阱：当 AI 让交付变得极度便宜，组织会不自觉地把更多脏活分配给最好用的人。作者给出的破局思路不是被动响应现有奖赏系统多交付，而是主动管理「交付的摩擦」——判断哪些是真正值得做的事，对不必要的脏活说不。这篇文章和精讲一的哑铃效应是一组很尖锐的对照：能用 AI 十倍提效，未必能让你站上「高能动性通才」那一端，反而可能让你更快地被钉死在「执行者」的位置上。 [40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销](https://www.bestblogs.dev/video/f22c41a) ![Webflow 联合创始人谈 AI 营销](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/df5520faa4b5486e.jpg) Y Combinator 主持人采访了 Webflow 联合创始人 Bryant Cho，他现在在做新项目 Ploy——一个 AI 营销与建站平台。Bryant 认为，拥有十几年行业品味积累、又掌握 AI 工具的资深创始人，现在能单枪匹马做到过去需要大团队才能完成的事：Ploy 内置的 Slurper 引擎能在 75 秒内分析一个现有网站的风格规则，重建出品牌一致的组件系统，而不是输出容易碎片化的标准 AI 模板。他特别强调，驾驭这种「无边界的模型智能」需要相当的专业积累——这正是精讲一里「顶尖工匠」与「高能动性通才」结合体的一个真实案例：经验越深，AI 工具放大出的杠杆越大。 ## 补充阅读 [AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码](https://www.bestblogs.dev/status/2068363092904276316) —— 宝玉系统梳理了把传统软件工程实践（需求分析、系统设计、代码审查、测试、CI/CD、灰度发布）应用到 AI Agent 编程的具体方法论，核心观点是与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 更少发生。适合正在搭建 Agent 编码工作流、想要一份可落地清单的工程师阅读，和精讲三的上下文注入机制可以对照着读。 [关于 AI 编程错误修复与 AGENTS.md 更新的不同意见](https://www.bestblogs.dev/status/2068231396015890449) —— 作者提出一个反直觉的观点：程序错误应该先恢复生产、查找根因，再根据根因选择测试、重构或流程改进，而不是简单粗暴地把所有规则都写进 AGENTS.md。这恰好是精讲三里「CLAUDE.md 不该被塞满流程」原则的另一个视角佐证，适合对照阅读。 [Codex 上线跨设备任务迁移功能 Handoff](https://www.bestblogs.dev/status/2068183780938985827) —— Codex 推出 Handoff 功能，允许用自然语言指令把正在进行的编程任务（含完整 Git 状态）在本地与远程服务器之间无缝迁移。适合关注 Agentic coding 工具链最新进展的读者。 [让 PDF 中的图片可被 RAG 搜索，无需付费读取所有图片](https://www.bestblogs.dev/article/01188342) —— 提出一种成本有序的级联方法，依次用廉价过滤器、类型分类器、传统 OCR 和视觉模型处理 PDF 图片，只对少数值得付费的图片真正调用视觉模型。适合正在搭建企业级 RAG 系统、关心推理成本控制的工程师，思路和精讲二里「token 该花在哪儿」的判断标准相通。 [从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事](https://www.bestblogs.dev/article/109f1dce) —— 通过访谈 Cerebras 早期投资人周楠，回顾百度美研在 2016 年前后对 AI 算力瓶颈的前瞻判断，并探讨当前 AI 投资从非共识到共识窗口急剧缩短的行业变化。适合想了解算力投资历史脉络的读者。 [对话王小川：造医生，战豆包，与无尽的 AI 非共识](https://www.bestblogs.dev/article/2fe94b1c) —— 王小川阐述百川智能聚焦 AI 医疗的战略逻辑：面对豆包等通用模型的冲击，选择以「造 AI 家庭医生」为切入点，在医疗供给端创造新价值，而不在 Coding 等共识赛道内卷。适合关心大模型创业公司差异化战略的读者。 [Microsoft Fabric 中的物化湖视图：当你的 Medallion 架构适配于一条 SELECT 语句时](https://www.bestblogs.dev/article/f6c28015) —— 介绍 Microsoft Fabric 的物化湖视图（MLV）如何把 Notebook、管道和调度简化成声明式 SQL 或 PySpark，自正式发布以来新增了命名调度等能力。适合数据工程团队评估是否要简化现有 Medallion 架构。 [LLM 修格斯迷因比你想象的更诡异](https://www.bestblogs.dev/article/9d82f035) —— 探讨 H.P. 洛夫克拉夫特的修格斯神话与现代 LLM 之间的深层共鸣，认为这个迷因不只是玩笑，更是对「创造缺乏真正理解与价值观、只会盲目模仿的 AI」的一种寓言式警示。适合对 AI 安全叙事感兴趣的读者。 [如何在 Flutter 中正确处理错误：密封类、记录与 Result 类型的实用指南](https://www.bestblogs.dev/article/20d158fe) —— 介绍如何在 Flutter 中用密封类、Result 类型、Dart 3 记录和模式匹配处理错误，主张把错误当作显式的值而非不可见的异常。适合 Flutter 工程师参考。 [LLM 如今已变得复杂](https://www.bestblogs.dev/article/849ac78a) —— 指出现代 LLM 已从简洁的 Transformer 堆栈演变为包含多种注意力变体、MoE 路由和多模态编码器的复杂系统，这与推荐系统的复杂性发展轨迹如出一辙。适合关心模型架构演进脉络的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，先读精讲二《三个月，一场必然失败的 Tokenmaxxing》——它用最扎实的数据解释了过去三个月 AI 应用层叙事为什么集体退烧，是理解当下 AI 投入逻辑的地基；第二，读精讲一《AI 教母预言：10 年后只剩两种工作者》——李飞飞的哑铃效应能帮你判断自己该往「顶尖工匠」还是「高能动性通才」哪个方向走，速览里那篇「AI 十倍提效却升不了职」的反思可以接着读，两篇对照会让判断更具体；第三，如果你是工程师或正在搭建 Agent 工作流，精讲三《深入理解 Claude Code：上下文注入机制全解析》值得完整读完——它把 CLAUDE.md、Skills、Subagents、Hooks 的分工讲得很清楚，是少烧 token、多出活的具体方法。三篇读完，再挑速览里和你工作最相关的一两条补充即可。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译李飞飞与David Roger提出“哑铃效应”：文本智能成本趋零，劳动力向顶尖1%专家和高能动性通才两极坍缩，中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token，Claude Code重度用户月花15万美元；五月迅速退烧——Amazon关闭排行榜，Uber烧光2026年全年预算，微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍，70%耗于探索与修复；写代码效率增180%，但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。

MiniMax (official)@MiniMax_AI · 6月21日37

Excited for what the talented engineers and researchers build today at @ycombinator

译在 Y Combinator 举行的 @googledeepmind / HUD Frontier / RSI RL Environments 黑客马拉松现场人潮涌动，共同赞助方还包括 @ExaAILabs @modal @AnthropicAI @FireworksAI_HQ @MiniMax_AI 等。期待各位工程师和研究员今天在 YC 的成果。

Chubby♨️@kimmonismus · 6月21日24

At this point, I can easily see the drama around Anthropic pushing them to delay their IPO, while OpenAI does everything it can to beat them to market and raise more capital along the way.

译在这一点上，我很容易看到围绕Anthropic的戏剧性事件会迫使其推迟IPO，而OpenAI则竭尽全力抢先上市并在此过程中筹集更多资金。

Berryxia.AI@berryxia · 6月21日57

讲真，AI时代并没有真正意义的平权可言！美国把Claude最强的Mythos模型限制出口后，居然还有大概200家机构能继续用。换句话说：这200家美国机构现在手里握着的，是外面所有人都摸不到的顶级AI能力。根据Bloomberg的报道，这些早期用户（包括一些银行、Cisco、Dragos等组织）在出口管制后依然保留着访问权限。而普通用户和大多数组织已经被挡在外面。评论区有人说得好："What can we peasant do?"（我们普通人能干嘛？）作者回了一个词："Permanent underclass"（永久底层阶级），说真的，这话虽然扎心但不无道理。想想看，当200家顶尖机构已经在用最顶级的模型做研发的时候。外面的人还在争论该用GPT-4还是Claude Sonnet，这个差距不是一两年能追回来的。我感觉这才是真正的AI鸿沟，不是你买不买得起API的问题，是人家用的东西你连见都见不到。对我们普通人来说，现在的策略就一个：先把现有工具用到极致，别等"更好的出来"，等你也等不到。

译美国对Anthropic最强模型Claude Mythos实施出口管制后，仍有约200家早期用户（包括部分银行、Cisco、Dragos等）保留访问权限，普通用户和大多数组织已被挡在门外。据Bloomberg报道，这200家机构手握外界无法触及的顶级AI能力，形成“永久底层阶级”式的AI鸿沟。差距不是简单API购买能力能弥补，普通用户甚至见不到这些模型。

Berryxia.AI@berryxia · 6月21日83

重磅，AlphaFold之父John Jumper宣布离开Google DeepMind，加入Anthropic🤯 这个人什么背景？简单说：他带队做出了AlphaFold，直接拿下诺贝尔化学奖，蛋白质结构预测从几十年的难题变成了AI秒出结果。他在Google待了快9年，Demis Hassabis（DeepMind创始人）在他博士毕业才6个月的时候就让他带AlphaFold团队，这个魄力本身就很疯。但现在他选择走了，而且是去Anthropic。说真的，看看最近Anthropic的人才流入： John Jumper（AlphaFold/诺贝尔奖）之前还有大批OpenAI核心研究员 Jeff Dean现在还在Google但已经开始公开跟他互动了评论区有个老哥说得特别到位："Anthropic is collecting the infinity stones"（Anthropic在收集无限宝石）。我感觉Anthropic可能手里有什么我们还不知道的东西，否则解释不了为什么顶级人才像被吸铁石一样往那里跑，一个做蛋白质结构的诺贝尔奖得主，跑去做AI安全和大模型，这个跨界本身就说明了一件事：AI的下一个重大突破可能不在你以为的地方。

译诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 宣布离开 Google DeepMind，加入 Anthropic（休息一段时间后）。他在 GDM 工作近 9 年，博士毕业仅 6 个月便被 Demis Hassabis 委以重任领导 AlphaFold，实现了蛋白质结构预测突破。此前已有大批 OpenAI 核心研究员流入 Anthropic，Jeff Dean 也开始公开互动。评论称 Anthropic 在“收集无限宝石”。这位蛋白质科学家跨界 AI 安全与大模型，暗示下一个重大突破可能出现在意料之外的方向。

Nathan Lambert@natolambert · 6月20日44

Frontier labs are definitely SOTA at self serving nonsense. Yes, AI is a crucial technology, but also Silicon Valley systematically spreads knowledge via talent exchanges and bars. This isn’t a national security deep decision making room.

译Nathan Lambert 评论称前沿实验室（Frontier labs）在自我服务无意义方面已是 SOTA。他认为 AI 虽为关键技术，但硅谷通过人才交流和酒吧传播知识，并非深度国家安全决策场景。引用 @willdepue 声称中国能完全访问 OpenAI 和 Anthropic 的 GitHub/Slack/docs，并怀疑中国开源模型中可能出现可抵赖的被窃架构方法。

🚨 AI News | TestingCatalog@testingcatalog · 6月20日37

Anthropic is working on "Schedules" for its upcoming Claude Conway. > Recurrent triggers that wake Conway on a schedule. Survive container restarts. Super excited to see how Conway will work with all these planned features.

译Anthropic正在为其即将推出的Claude Conway开发“Schedules”功能。非常期待看到Conway如何与所有这些计划功能配合工作。

SemiAnalysis@SemiAnalysis_ · 6月20日53

According to @arankomatsuzaki , Claude charges 3x more to Hindi speakers like @dylan522p , @_sholtodouglas & @dwarkesh_sp

译据 @arankomatsuzaki 称，Claude 对印地语使用者（如 @dylan522p、@_sholtodouglas 和 @dwarkesh_sp）收费贵 3 倍。

Chubby♨️@kimmonismus · 6月20日72

Trump’s perspective on Anthropic as a possible national security risk, as well as his views on AI energy needs and regulatory policy. Let’s hope we’ll get fable 5 soon again.

译特朗普将Anthropic视为潜在国家安全风险的观点，以及他对AI能源需求和监管政策的看法。让我们希望很快能再次看到fable 5。

Chubby♨️@kimmonismus · 6月20日39

It probably has nothing to do with trying to win more goodwill, since Fable 5 still isn't available and- theoretically- won't be available via subscription after June 22nd, right?

译这大概与试图赢取更多好感无关，因为Fable 5仍然不可用，而且——理论上——在6月22日之后将无法通过订阅获取，对吧？

AYi@AYi_AInotes · 6月20日47

看到这个老哥的调侃，可以期待在下个月Jeff Dean是否会加入Anthropic， Jeff Dean是Google传奇人物（Google Brain联合创始人，现DeepMind高层），被视为Google AI的象征性人物，我感觉Google估计已经开始留人计划了

译2024年诺贝尔化学奖得主、AlphaFold团队核心领导者John Jumper在Google DeepMind工作近9年后宣布离职，将加入Anthropic，先休整一段时间。Jumper博士毕业仅6个月便被Demis Hassabis委以AlphaFold团队领导重任，最终做出诺奖级成果。其告别中写道“GDM taught me how to do great science”。社区调侃Anthropic在组建“AI Avengers”，并期待下个月Jeff Dean是否也会加入。主推文暗示Google可能已启动留人计划。

歸藏(guizang.ai)@op7418 · 6月20日72

看起来谷歌 DeepMind 最近出了点问题。今天 AlphaFold 的作者，诺贝尔奖获得者 John Jumper 也宣布离开 DeepMind，加入了 Anthropic。就在前几天 Transformer 作者、MoE 提出者 Noam Shazeer 加入 OpenAI 以后。

译今天，诺贝尔奖得主、AlphaFold发明者John Jumper宣布离开Google DeepMind，加入Anthropic。他引用推文中表示，在GDM近9年后决定离职（将先休息一段时间），感谢CEO Demis Hassabis在他博士毕业仅6个月后让他领导AlphaFold团队。此前数日，Transformer作者、MoE提出者Noam Shazeer已加入OpenAI。两位重量级AI科学家的连续出走引发外界对DeepMind人才流失的关注。