I sat down with Akshay Kothari (@akothari), co-founder of @NotionHQ , to talk about Notion’s evolution from a notes app into an agent-first workspace. We discussed: • why templates became Notion’s real unlock • how humans, code, and AI agents will work side by side • Notion’s internal people-ops agent “Smilers” • self-healing company knowledge bases • Notion Workers and automation • why Notion wants model optionality instead of lock-in • why the future of work should augment human intelligence, not replace it The most interesting idea: AI agents won’t just automate busy work. They could allow expertise to spread across an entire organization, so workflows built by one person become reusable by everyone.

译在与Notion联合创始人Akshay Kothari的对话中，探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括：模板成为增长突破口；人类、代码与AI Agent将协同工作；内部人事Agent“Smilers”；自愈式企业知识库；Notion Workers自动化；保持模型可选择性避免锁定；未来工作应增强而非替代人类智能。最引人深思的观点是：AI Agent不仅能自动化繁琐工作，还能让专业知识在整个组织内传播，使一人构建的工作流被所有人复用。

🚨 AI News | TestingCatalog@testingcatalog · 6月22日64

BREAKING 🔥: Sakana AI announced the Sakana Fugu and Sakana Fugu Ultra systems, which perform on par with Claude Fable 5 and Mythos 5 across many benchmarks. > Sakana AI is an AI lab from Japan, and Fugu is an orchestration model trained to operate other LLMs. > It is available as an API but not yet accessible in the EEA region. That's a natural evolution. Orchestration multi-model systems will outperform single-model systems, and they will become much more accessible for smaller labs and companies to build. Big players will have to consider building orchestrating systems that rely on models built by competitors. It is already happening at Meta, Apple, and Microsoft, and will likely catch Google, Anthropic, and OpenAI as well eventually.

译Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型，训练用于操控其他 LLM，通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5，并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务，但暂不支持 EEA 地区。推文指出，编排式多模型系统将超越单一模型，使小型实验室和企业更易构建，并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。

Chubby♨️@kimmonismus · 6月22日49

Sakana’s Multi-Agent on par with Fable 5: Sakana AI’s Fugu Ultra may not be a new frontier model in the classical sense. It is more like a learned orchestration layer that turns multiple frontier models into a coordinated agent team. The next jump in AI capability may come not only from larger base models, but from better test-time orchestration. I love it, Kudos Sakana!

译Sakana AI 推出 Fugu 多智能体编排系统，通过单一模型 API 调用即可协调多个前沿模型组成智能体团队。其 Fugu Ultra 模型性能与 Fable、Mythos 相当，且不受出口管制限制。主推文指出，Fugu Ultra 并非传统意义上的新基座模型，而是一个学习到的编排层，更智能的测试时编排可能是 AI 能力的下一个跃升点。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月22日39

Google and MediaTek Deepen TPU v9 Collaboration with Upgraded Triggerfish, Targeting AI Agents, Reinforcement Learning, and Effective Compute Maximization 1. My latest industry checks indicate that Google is developing an upgraded v9 chip, likely codenamed Triggerfish, based on TPU v9 / Humufish, with MediaTek exclusively securing this new, higher-priced order. 2. This upgraded chip is a Humufish-based follow-on program, positioned as a v9 variant with stronger inference capabilities that can help mitigate both the CPU wall and the memory wall. The project also further confirms MediaTek as Google’s preferred development partner for the TPU v9 generation. 3. The key differences between this v9 variant and Humufish are: SRAM capacity is significantly increased to 2–3 times that of Humufish, a new simulation die is added, and memory is upgraded to HBM4E, versus HBM4 on Humufish. 4. Beyond local TPU management and training / inference mode switching, the newly added simulation die's likely role centers on reinforcement learning (RL) and AI-agent coordination. 5. The larger SRAM keeps more of the active working set required by RL and AI agents local to the TPU, reducing data-movement costs and improving efficiency in the ultra-low-latency decode stage. 6. With Humufish lifetime shipments still estimated at 4–5 million units, Google is adding an incremental Triggerfish order of 1–2 million units, with production expected to begin in late 2027 and ramp in volume in 2028. As Triggerfish carries a unit price roughly 30% higher than Humufish, it could become an incremental driver of MediaTek’s 2028 business momentum.

译郭明錤爆料，Google基于TPU v9 / Humufish开发升级版芯片Triggerfish，由MediaTek独家代工。相比Humufish，Triggerfish的SRAM容量提升2-3倍，新增模拟die（用于强化学习和AI智能体协同），内存升级至HBM4E（Humufish为HBM4），强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗，Triggerfish追加订单100-200万颗，预计2027年底试产、2028年放量，单价高约30%，有望推动联发科2028年业绩增长。

向阳乔木@vista8 · 6月22日60

海立老师写书速度真快，开源了第三本书《Deep Agents in Action》。如果你对Agent开发感兴趣，可收藏学习，很好的资料。

AYi@AYi_AInotes · 6月22日59

有个老哥用Codex做了件疯狂的事，一条指令扔进去，AI自己把整个App的测试加修bug全包了，而且一口气跑了4.5小时，启发真的太大了🤯 以前AI写代码是副驾驶，你说一句它写一段，出了问题还得你自己找自己修，这次Codex的/goal功能直接跨了一大步，你给一个目标，它就能自己把整个质量闭环全跑下来。 Tom Osman做了这个实验，只给了一条指令，让Codex把App所有功能拆成用户故事，写完测完修完直到质量达标。结果Codex自己扫完了整个代码库，拆出183个用户故事，覆盖105个页面路由和67个API，全部整理进一张总表，然后循环测试修复，持续跑了4.5小时。整个流程分六步走，先扫描全量功能，再写用户故事和预期行为，接着生成测试用例实际跑测，发现问题自动修复，修完再做回归测试，漏了的功能再补进来继续循环。全程靠一张表格维持状态，不会跑偏不会失忆。这不只是又一个自动写代码的工具了啊，简直就是从AI辅助写代码到AI自主负责质量的质变了，以前要一个QA加一个开发花几天干完的活，现在AI几个小时就能跑一轮基础版本。对一人公司和小团队来说，等于凭空多了一个不知疲倦的测试加修理工。当然它也有明显的局限，比如只会照着现有代码测，产品设计本身错了它也会把错误当成标准固化下来，也可能出现幻觉式的测试结果，大项目的成本和时长都会爆炸，最终还是要人来把关优先级和体验。但真正的信号已经很清楚了，AI已经能独立跑完发现问题记录问题修复问题验证问题的完整循环。未来拼的不是会不会用AI写代码，还有会不会设计高质量的目标，会不会用结构化的状态管理约束AI，会不会在关键节点做好人类把关。

译Tom Osman用Codex的/goal功能，一条指令让AI自动将App所有功能拆解为用户故事，覆盖105个页面路由和67个API，生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏，持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量，但局限是仅基于现有代码测试，可能固化错误或产生幻觉，大项目成本高，最终需人类把关。

数字生命卡兹克@Khazix0918 · 6月22日66

http://x.com/i/article/2068923862918877184 # AI用得好不好，跟你会不会管人，我觉得越来越是同一件事。故事是这样的。这个端午节在家，终于可以休息了，然后几乎就是疯狂的用Agent来做自己好玩的东西。有图为证，最近这个假期，差不多干掉了2000多万的token。这里我防杠一下，我知道可能会有人说，你这好几天才干掉2000万token，也不算啥，我基本每天API都是一个亿起步。我想说首先我不是那么重度的用户，我就是个普通的爱好者，其次这个PK在我看来没有任何意义，因为只能说明你烧的多但是不代表质量高，最后这个Claude Code客户端的token消耗计算是不算缓存的，如果算上缓存的话，一个稍微大型一点跑4个小时的任务，烧的token可能就是4个亿。因为Claude Fable 5被下架了，所以这个假期，我几乎全部用的都是Claude Opus 4.8，然后有一个任务，让我感慨万千，那一瞬间，我真的无比的怀念Claude Fable 5。这个任务，是我自己做的AI资讯聚合网站AIHOT的一个聚簇机制。也就是大家在精选页下看到的这个关联讨论多少条。我们外显监控的信源其实只有200个不到，但是背后其实还监控着近千个隐性信源，有多少可信信源共同讨论某一件事，几乎代表着未来AI时代我觉得热点的性质和定义。所以这就需要聚簇，也就是把大家讨论的事情给拆分、聚集、然后形成一簇，再把其中一个信源的单条信息推选出来当领袖对外展示，其他的隐藏在背后。大概就是这么个东西。而且做聚簇还有个必要性，就是比如某个大事件突然爆掉的时候，比如这周GPT-5.6发布了，那在AI领域，一定是上百个信源共同讨论，其中会有无数被精选，如果我们全都展示出来，那就直接刷屏了，整个AIHOT上你也看不到别的了，满屏的都是GPT-5.6，用户体验极差。所以于情于理，这个东西我们都要做好。但是呢，现在的聚簇机制，过去经常有问题，一会把不该聚的聚在了一块，一会把该聚的又分裂了，我自己看起来经常难受的要死。。。所以这个端午节假期，我就准备重构一下这个聚簇的算法。感觉没有那么难对吧，但是，坑比我想象的多太多了。首先最大的问题是，我知道当一个热点爆发的时候，相关新闻应该被聚拢成一个簇，我知道语义相近但事件不同的新闻必须被拆开，我知道时间窗口应该限制在24小时以内，我知道聚簇的阈值不能太松也不能太紧，太松了什么都黏在一起，太紧了每条新闻都是孤岛。这是最终的效果和目标，但是究竟什么样的算法和机制可以达成，坦诚的讲，我是个废物，我一无所知。。。所以我只能给Claude Code一段这样的目标，然后让他全网调研，用我们数据库里的真实数据进行量化回测，让它自己去实现。我把这些东西写清楚了，丢给了Opus 4.8。然后问题就来了。 Opus 4.8是一个很强的模型，这个我承认。但是至少在做这种只有模糊目标没有明确任务的事情上，全面崩盘。在方案设计上，就漏洞百出，查了一些论文，学了一些所谓的SOTA的做法，然后设计的方案乱七八糟，我稍微检查一下感觉里面就有漏洞，我一问它就自己反转反转再反转。经典台词：这里有个反转。后面都给我干生气了，怒斥这个墙头草，毫无底线，毫无坚持。最后拼拼凑凑在对抗式审查之后，出了一版方案，我开着那个最高级别的动态工作流也就是那个Ultracode让他做完，又是一堆BUG，最后又变成了哦阈值0.72高了点，我们降到0.71吧，没有考虑到多语言，也毫无各种各样的边界情况。这玩意干了我一天时间，中间不断修修补补，新方案修了旧的问题，又冒出来新的问题。最后给我干的快道心破碎了。那个状态，想起了我在公司里带一些能力还不错但你又不能完全放手的小伙伴的时候，你给他方向，他能走，但你得盯着，时不时拉一把，时不时补一句这个地方你漏了，这么做它不对。那天，我突然心中好怀念Claude Fable 5。如果Fable 5还安在，这个事情可能半天就搞定了，而且省心省力。因为我之前用Fable 5做过好几个类似复杂度的项目，每次的体验都是一样的，我只需要把目标讲清楚，甚至不需要那么明确的目标，一个模糊的目标也行，它给出来的方案经常比我自己能想到的要好N个数量级，而且大概率是能以非常优雅的姿态，完成你的目标。那玩意，就是那种你给它一个方向它能自己跑到终点还顺手把沿途的坑都填了的选手。但它出师未捷身先死，中道崩殂了。所以我只能用Opus 4.8或者GPT-5.5，然后用更细致的管理方式去补它们和Fable 5之间的差距。但这个体验，让我想明白了一件非常非常非常重要的事。不同能力的AI，你得用不同的管理方式。跟管人，是一模一样的。这几年，当过大头兵，当过小组长，管过小团队也管过大团队，现在也作为一个创始人在创业管着自己公司的三十来号人。我自己对管理最深的体感就是一句话：越厉害的人，你给的东西就得越不一样。比如纯粹的新人刚刚入职的时候，你可能得告诉他每一步怎么做。比如打开这个文件，复制这段数据，粘贴到那个表格里，格式调成这样，最后发给谁谁谁，你给他的，其实就是一个任务清单，每一步都写得清清楚楚。这其实就是Prompt Engineering的逻辑，你把每一步都告诉AI，它照着做。但是带了一段时间之后，他开始上手了，你就不用这么细了。你可以跟他说，这个月的视频内容排期你来做，风格参考上个月的，节奏控制在每周两条。你给他的，从一步一步的指令，变成了一个目标加上一些约束条件。这就是Harness Engineering的逻辑。你给AI一个目标和一套规则，它在规则内自己想办法达成。再后来，如果这个人真的很强，你会发现一个很微妙的变化。你甚至不需要给他特别具体的目标了，你跟他说，我们今年想把品牌在线下活动的影响力做起来，你来想想怎么搞吧。或者说，我们今年MCN的商业化收入，要保持口碑的同时健康的增长。他不光能做，他还能反过来给你一个你没想到的方案。而且他做完之后，还能把这次整套的流程沉淀成SOP，下次换一个人来，也能继续执行照着跑，它可以去拓展更牛逼的业务。这种人，是每个公司、每个团队、每个管理者做梦都想要的超级大佬。 Claude Fable 5给我的感觉，就是这种人。而它之下，Opus 4.8、GPT-5.5、GLM-5.2，都更像一个能力很强但你还是得盯着的高级员工。你看，差别就出来了。我做AIHOT聚簇那两天的痛苦，根源就在这里。我给了一个策略层的目标，但Opus 4.8需要的其实是更接近执行层的指引。这时候，我的管理方式和模型的能力层级之间有一个错配。就像你把一个合伙人级别的目标甩给了一个高级执行者级别的人，这个人其实并不是不行，只是你的预期和他的承接能力之间差了一层。回到管人这件事。我这两天其实也一直在想一个问题，为什么有些人用AI效果特别好，有些人就总觉得AI很笨。我现在越来越觉得，这跟一个人会不会管理，是强相关的。管人管得好的人，天然就知道怎么定义目标、怎么给约束、怎么设反馈机制。但更重要的是，他们知道怎么判断面前这个人的能力层级，然后动态调整自己的管理颗粒度，这一点真的非常非常非常重要。任正非有一句话我觉得非常对。 “让听得见炮声的人来做决策。” 这句话在华为内部被反复提起，意思是总部不要替前线的人做每一个决定，你把战略方向定清楚，把资源配到位，具体怎么打让前线自己判断。因为前线的人最了解现场的情况，他们的即时判断经常比总部坐在会议室里的遥控指挥要准得多。这个思维方式，我觉得跟现在用AI是完全一样的。你给AI写一堆详细的步骤，就像总部在遥控指挥，每一步都给前线下死命令，这个方式看起来很缜密，但一遇到你没预料到的情况，AI就懵了，因为步骤里没有覆盖到这种case。你给AI一个清晰的目标，一套约束，然后让它自己决定怎么执行，这才是“让听炮声的人做决策”，AI也才真正有了自主决策的空间。但是，这里有一个前提。任正非这句话之所以在华为管用，是因为华为的人才密度够高。你让一个刚入职的应届生去听炮声做决策，他可能连炮声从哪边来的都分不清就被炮给轰死了。但如果你让一个打了十年仗的业务老将去做同样的事，他不光能判断方向，还能在混乱中即兴发挥出你想不到的打法。同一套管理哲学，对不同能力的人，效果天差地别。同样是管人，你跟一个初级运营说“把这篇文章排到今天下午三点发”，这是一个执行层的目标，明确、可验证、没有歧义。你跟一个经纪总监说“这个季度MCN要在XX这个平台做到垂类领域No.1”，这是一个策略层的目标，模糊但有方向，需要对方自己拆解。你跟一个合伙人说"我们今年要成为AI行业最有影响力的内容公司”，这是一个愿景层的目标，几乎没有执行路径，但它锚定了所有人的方向。三个层次，给不同的人。你把执行层目标给了一个合伙人级别的人，他会觉得你不信任他，觉得你在微操。你把愿景层目标给了一个刚来的实习生，他会完全不知道从哪下手，然后焦虑到失眠。给AI也是一模一样的。我做聚簇那两天的痛苦，根源就在这里。我给了一个策略层目标，但Opus 4.8在这个任务的维度上，需要的其实是更接近执行层的指引，管理方式和能力层级之间，错配了。但是，以上所有这些讨论，其实都还停留在我们当下、今天的游戏里。 AI、Agent、模型一定是会继续进化的。 Cladue Fable 5马上可能就要回来了，GPT-5.6也要上线了，可能要不了多久，Claude Fable 6、GPT-6也会来了。也许三个月后，也许半年后，你手上用的每一个模型都能接策略层的目标，都能自己设计方案，都能在你没想到的地方做出超出你预期的判断。甚至，未来还会出现合伙人级别的模型。到那个时候，当你面前坐着十几个合伙人级别的Agent，每一个都比你聪明，每一个都比你高效，每一个都能在它的领域里交出你想不到的方案。那你作为管理者，到底还有什么存在的理由呢？你的精力、你的思考、你的时间，到底应该投资在什么地方呢？这个问题，在这个小小的假期中，浮现了出来。我想了很久答案，最后，我想到了一个人，叫德鲁克，就是这个老头，被誉为现代管理学之父。他的思想，如果被归纳成一句话的话，我觉得就是： “管理者的工作，是思考应该思考什么。” 大多数人每天在做的事情，是思考怎么做这件事，怎么写更好的代码，怎么做更漂亮的PPT，怎么跑更快的模型，怎么写更精准的prompt，这些是执行层的思考，不用想，AI进步的速度在这些事情上比人快一个数量级，你从Coding和Agent的进化上就能看出来了。再高一层，是思考做什么。比如做哪个产品，切哪个市场，选哪个技术路线，这些是策略层的思考，Fable 5级别的模型已经开始在这个层面展现出惊人的能力了。但德鲁克说的不是这两层，他说的是第三层，“思考应该思考什么”。这一层的意思是，你有没有能力判断，在所有可能思考的问题里面，哪几个问题才是真正值得你坐下来想的。换句话说，我们每个人的注意力和精力都是有限的，我们到底应该如何保护自己的精力，聚焦在真正值得我们注意的问题之上。 AI时代，目前看，在逼着所有人往第三层走。因为第一层和第二层的思考，AI都会越来越擅长，你在这两层上的优势，会被模型能力的增长不断蚕食。只有第三层，什么问题值得想这个判断，AI过去、现在、未来都做不了。倒不是说AI不能帮你列出选项、做决策树、分析利弊，这些它绝对都能做，而且做得比你快。但最后那一下，在所有分析都摆在桌面上之后，你选A还是选B，这个选择背后站着的，是你这个人的价值观、你的审美、你对世界的理解、你愿意为什么承担代价。这些东西，是计算不出来的。因为它们不是计算问题，是选择问题。计算有最优解，选择没有。选择只有你选的和你没选的，然后你用你的余生去承受这个选择的后果。 AI可以穷举所有可能的路径，给你每一条路的概率分布和预期收益。但这条路值不值得走，这个判断，永远只能由一个真实活过的、痛过的、做过错误选择并且承受过后果的人来做。这就是为什么管理学读到最后，一定会走向哲学。你去看德鲁克后期的内容，越写越像搞哲学的，怎么做计划、怎么定KPI他也不说了，他开始聊什么是有效的人生、什么是值得追求的东西。还有稻盛和夫，他一辈子管理思想的核心就一句话，“作为人，何谓正确”，因为他发现，当你管理的层级足够高的时候，所有的商业判断到最后都会变成一个伦理判断，你到底相信什么，你愿意守住什么。所以我现在的想法是这样的。很多人觉得AI越强，人就越没用，但我觉得刚好反过来，AI越强，你被推到的管理层级就越高，从一个执行者的位置被推到管理者，从管理者被推到战略制定者，从战略制定者被推到一个更接近哲学家的位置。你会被这个时代逼着，越来越往上升职，而你能不能接住这个新的位置，取决于这些年，我们到底有没有在积累真正不可替代的东西。如果不能，那可能就会像五代十国里的石重贵和耶律德光，被时代无情的碾过，然后吞噬。真是一个残忍，又吃人的时代。

译作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制，消耗2000多万token，耗时一天屡次改阈值（0.72→0.71）、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结：管理AI与管理人本质相同——越强的模型（如Fable 5）给方向即可（愿景/策略层），越弱的模型（如Opus 4.8、GPT-5.5、GLM-5.2）则需更细执行层指引，错配层级正是痛苦根源。

Rohan Paul@rohanpaul_ai · 6月22日50

Can LLM agents actually discover hidden rules by interacting? The answer is uncomfortable. The more complicated the hidden world gets, the faster AI agents fall behind. LLMs often cannot turn growing evidence into a stable internal model. Current LLM agents can sometimes discover hidden structure through interaction, but they are still weak at planning questions, using memory, and turning feedback into a reliable world model. ---- Link – arxiv. org/abs/2606.16576 Title: "Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning"

译Rohan Paul引用新论文指出，尽管LLM智能体有时能通过交互发现隐藏结构，但其推断世界模型的能力存在根本局限：随着隐藏世界复杂度增加，AI智能体的表现迅速落后，难以将积累的反馈转化为稳定的内部模型，尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是，在复杂环境中，LLM智能体建立可靠心智模型的速度跟不上难度增长。

Rohan Paul@rohanpaul_ai · 6月22日70

Sakana AI has unveiled Fugu Ultra, an orchestration layer that assembles and routes subtasks across a pool of models through one OpenAI-compatible endpoint. On most benchmarks, it matches the performance of Fable and Mythos. Fugu is a learned coordinator model inside a multi-agent system. "Sakana Fugu is itself an LLM, trained to call various LLMs in an agent pool, including instances of itself recursively. Fugu dynamically orchestrates the world's best models to tackle complex, multi-step tasks." When you send a prompt, Fugu decides whether to answer alone or hand pieces of the job to other models, then it gathers the outputs and produces one final response.

译Sakana AI 推出 Fugu Ultra，一个多智能体编排层，通过单一 OpenAI 兼容端点动态调用多个模型处理子任务。Fugu 本身是一个 LLM，被训练来自主决定是直接回答还是将子任务分发给模型池中的其他模型（包括递归调用自身），最后整合输出。在大多数基准测试中，Fugu Ultra 性能匹配 Fable 和 Mythos，提供前沿能力且规避出口管制风险。

ginobefun@hongming731 · 6月22日57

http://x.com/i/article/2068851376151777280 # BestBlogs 早报 · 06-22｜Claude Code 负责人访谈、库克离场前苹果 AI 权力重构、GitHub 数据分析智能体在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语当编码不再是瓶颈，工程团队的真正考验变成了如何验证产出。今天的早报，三条精讲恰好从三个层面回答了这个问题。第一条来自 Anthropic Claude Code 负责人 Fiona Fung，她做客 Lenny's Podcast，抛出一个数据点：Anthropic 工程师如今每季度交付的代码量是过去的 8 倍，但她更想讲的，是当「能不能做出来」不再是约束之后，团队该如何运转。第二条把镜头转向苹果，硅谷101 受邀亲临 WWDC26 现场，复盘库克离场前苹果内部的 AI 权力重构，以及一家以「完美文化」著称的公司，如何在每周一个版本的 AI 节奏面前重新校准自己的价值观天平。第三条则是 GitHub 工程团队首次公开内部数据分析智能体 Qubot 的构建实录，用一套三层架构印证了一个朴素却关键的洞察：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。把这三条放在一起读，会发现它们其实是同一条主线的不同切面——当 AI 把「执行」这一环大幅压缩，组织的胜负手正在从「写代码的能力」转向「定义问题、验证产出和沉淀上下文的能力」。无论是 Fiona 把规范签入代码库让 Claude 自动校验，还是 GitHub 把数据知识按 bronze/silver/gold 分层喂给智能体，本质都是在为 agent 准备一套结构化、可被持续维护的上下文；而苹果的组织重构，则是在更高层面回答「谁来定义这套上下文与价值观」。速览与补充阅读里，还有图灵奖得主 LeCun 押注的世界模型之争、Cerebras IPO 引出的 AI 算力路线、DeepSeek 背后 356 人的人才白皮书、SFT 仍漏学 15% 训练数据的 ACL 论文，以及 GLM-5.2 登顶 Design Arena 等一批值得细看的内容，方向横跨研究、产业与一线工程实践，建议挑贴合自己当前关注的两三篇深读。 ## ★ 精讲一：打造全球最「All-in AI」工程团队：Anthropic Claude Code 负责人 Fiona Fung 的一线实践来源：Lenny's Podcast（VIDEO）｜评分 92｜在 BestBlogs 阅读本篇 Anthropic Claude Code 与 Co-work 负责人 Fiona Fung 做客 Lenny Rachitsky 的播客，开场就抛出一个足以让所有工程管理者停下来的数据：Anthropic 的工程师如今每季度交付的代码量，是 AI 工具普及之前的 8 倍。但她紧接着强调，真正值得讲的不是这个数字，而是「软件工程」这件事本身正在被重新定义。编码不再是瓶颈。这是 Fiona 反复回到的一句话。在她看来，AI 抬高了「任何一个人能做到什么」的天花板：在 Anthropic，产品经理、设计师和各个方向的工程师都在向代码库提交代码，约束已经从「我们能不能把它做出来」彻底转向了「我们如何验证做出来的东西是正确的、且真正有影响力的」。换句话说，能力的稀缺性下降了，判断力和验证能力的稀缺性上升了。一个「全员 All-in AI」的团队，日常究竟长什么样？Fiona 给了几个非常具体的画面。她自己有一个 Claude Code 远程会话，常驻运行在 Anthropic 所有代码仓库之上，让她对每个人在交付什么——PR、指标、线上事故——保持完整的可见性。她不再依赖人工的状态同步，而是用这些真实的代码活动和市场反馈，来支撑更有信息量的一对一沟通和月度复盘。她还重度依赖一类被称为 routines 的「定时智能体」：它们每天清晨醒来，扫描 Slack、邮件、合作伙伴渠道和社交媒体上的反馈，归纳出主题，甚至直接为一些打磨型的小修复生成 PR——她要做的，只是在早晨的咖啡时间审阅这些 PR，而不是手动去逐条分拣反馈。在「招什么样的人」上，她给出了两类画像。一类是有产品感的创造型构建者：他们对某个产品充满热情，能端到端地把东西做出来，痴迷地阅读用户反馈，并把体验打磨到令人愉悦——她称之为「造梦者」。另一类是深度的系统专家：在那些仍然需要专业验证和领域知识的环节，比如分布式系统，这类能力是她为 Claude Code 团队刻意去招募的。「现在理论上一切皆有可能，」她说，「问题变成了：你能有多大的野心？」那么如何在 8 倍速度下守住质量？Fiona 给的框架很朴素：区分 bad（不可恢复的错误，比如崩溃）和 sad（可恢复的痛点，比如界面闪烁），每个团队自行定义各自的阈值；再把规范（specs）签入代码库，让 Claude 能对照既定标准来校验 PR，叠加自动化监控，质量这一层就能随产出量一起扩展。她也坦诚地谈到一个意外的副作用——孤独感：「当我们都开始大量和自己的 agent 一起工作，它会慢慢变成一种孤独的体验。」团队的应对是结对编程式的午餐和黑客松，目的不是复刻老式结对编程，而是互相分享工作流，因为团队里每个人使用 Claude Code 的方式都出人意料地不同。放在今天这份早报的语境里，这篇的价值在于它给出了一手的、可被借鉴的「AI 时代团队操作系统」：常驻远程会话、自动生成 PR 的 routines、bad/sad 质量框架、用 JIT 月度计划取代半年路线图。它和后面 GitHub 的 Qubot、苹果的组织重构互为参照——当执行被压缩，组织的真正功夫都落在了流程、验证和上下文上。阅读建议：如果你正在带一支工程团队，建议把它当成一份可落地的实践清单来读，对照自己团队的瓶颈逐条取舍。 ## ★ 精讲二：库克的离场，苹果新 AI 权力重构与价值观天平｜WWDC26 来源：硅谷101（ARTICLE）｜评分 91｜在 BestBlogs 阅读本篇 2026 年 6 月 8 日，苹果在库比蒂诺 Apple Park 举办年度 WWDC——这是 Tim Cook 以 CEO 身份最后一次主持。按照官宣，他将于 9 月 1 日卸任，由硬件工程高级副总裁 John Ternus 接任 CEO，自己转任董事会执行主席。硅谷101 今年受邀亲临现场，这篇复盘最难得的，是它把一场「换帅 + AI 转身」的复杂博弈摆在了台面上。文章先讲清了组织权力的重新洗牌。两年前 Apple Intelligence 发布后数次延期，不仅让业界质疑苹果的 AI 研发能力，更引发了消费者虚假广告诉讼和股东证券欺诈诉讼。Gen Digital 首席 AI/创新官 Howie Xu 一针见血：苹果过去成功靠的是「一年憋一个大招」，但 AI 时代大概每周就该有一个 release，这套老打法可能不再适用。据彭博社报道，2025 年苹果高层完成了一次改写 AI 权力版图的人事变动：原本负责 AI 的 John Giannandrea 失去信任并最终离开；曾主导 Vision Pro 的 Mike Rockwell 接手 Siri，但在 Craig Federighi 的坚持下，AI 与 Siri 最终归属软件工程体系，Rockwell 向 Federighi 汇报，而非直接向 Cook 汇报；同时，苹果从外部挖来在谷歌待过 16 年、主导过 Gemini 的 Amar Subramanya 来主导自研模型。背后的真正分歧是：AI 到底是一个独立的新中枢，还是软件系统的一部分？技术层面，文章拆解了新一代 Apple Foundation Models（AFM）：两个端侧模型（30 亿参数的 AFM 3 Core 与 200 亿参数 MoE 架构的 AFM 3 Core Advanced），以及云端三件套（AFM Cloud、AFM Cloud Pro、ADM Cloud Image）。前苹果工程师 Nathan Wang 解释，端侧能跑 200 亿参数模型靠两项关键技术：稀疏 MoE 一次只激活约 10 到 40 亿参数，以及把部分固定参数放进闪存、按需动态加载，从而在内存有限的端侧设备上既省内存又省电——这正是苹果软硬一体优势的体现。值得注意的是，更强的端侧模型对硬件门槛极高，目前只能在 iPhone 17 Pro 系列、iPhone Air，以及内存达标的高端 iPad/Mac 上运行。云端最强的 AFM Cloud Pro 负责复杂推理和智能体工具调用，且是在谷歌云上专门为英伟达 GPU 优化的。这篇为什么值得今天读？因为它提供了一个与精讲一形成镜像的样本。Fiona 的 Anthropic 代表了一种「执行成本趋近于零、组织全力拥抱变化」的极端；而苹果代表了另一种张力——一家把「完美体验」刻进基因的公司，在 AI 革命面前如何重新平衡「用户体验」和「产品创新」这架天平。多位硅谷专家点评本次 demo「不够 agentic」，华尔街观望致股价跌超 5%，都说明这场转身远未完成。阅读建议：想理解大公司在 AI 时代的组织阵痛与战略取舍，这篇带现场视角和内幕的深度复盘是很好的标本，可以重点看组织重组和自研模型两节。 ## ★ 精讲三：我们如何构建内部数据分析智能体来源：The GitHub Blog（ARTICLE）｜评分 90｜在 BestBlogs 阅读本篇「数据自助化」是数据团队追了几十年都没真正解决的难题。GitHub 工程团队这篇文章，首次公开了他们的内部数据分析智能体 Qubot 的构建实录：它让任何一位 Hubber（GitHub 员工的自称）都能用自然语言询问数据仓库里任意数据模型的问题，并在几秒内得到答案。文章一开始就把定位讲得很清楚——Qubot 不是报表工具，也不是仪表盘的替代品，它面向的是探索式提问，比如「这个功能上，哪一群用户的留存最高？」或者「上周是哪个产品最大程度地拉动了这个指标？」架构由三个主要部分组成。第一层是多入口的用户界面：Qubot 可以通过 Slack、VS Code 和 Copilot CLI 访问。Slack 无需任何配置，是 Hubber 们最常用的协作工具——在 Qubot 频道里发问，系统会在 github.com 上拉起一个 Copilot Cloud Agent 实例，答案直接回到 Slack，方便分享，也能在 thread 里继续追问、refine 问题；所有结果还会以 markdown 报告的形式存进一个 PR，供后续微调查询或接入仪表盘。第二层是联邦化的上下文层，这也是全文最关键的一节：数据仓库按 bronze（原始事件）、silver（规整后的事实与维度）、gold（面向具体业务场景的精选数据集）分层，上下文层则针对每一层「量身定制」知识——bronze 是产品团队贡献的遥测上下文和元数据，silver 是数据团队维护的查询示例、使用指引与强制过滤条件，gold 是数据集 owner 提供的业务规则和指标定义；上下文在运行时通过 GitHub MCP Server 加载。为持续丰富这一层，他们还做了一个 context agent，让各团队用标准化模板或引用仓库的方式贡献知识，再由 agent 自动摄取、组织、规范化。文章给出的关键洞察是：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。这把「上下文工程」从一句口号变成了可量化的工程结论。把它和今天另外两条精讲对照着读会更有意思——Fiona 强调把 specs 签入代码库让 Claude 对照校验，本质也是在为 agent 喂结构化上下文；而苹果的组织重构，某种意义上也是在重新定义「谁来定义和维护那套上下文与规则」。阅读建议：如果你正打算在企业内部落地数据类或分析类 Agent，建议精读上下文层和 context agent 两节，把它当成一份分层上下文治理的参考蓝图。 ## 速览下面是今天另外 7 篇同样值得一读的精选内容，覆盖世界模型、AI 算力、人才结构、训练机理与工程实践等多个方向。 [AINews] GLM-5.2 货真价实；Z.ai 预测年底前推出 Open Fable（来源：Latent.Space，评分 90）。这期 AINews 把笔墨给了 GLM-5.2：它被视为首个真正通过「这是一个恰好开源的前沿模型」直觉检验的开放权重模型，并得到了独立从业者和多个样本外基准的交叉验证——作者特别提到，GLM 5 过了这道关、GLM 5.1 没过，而 5.2 的「手感」明显不同。文章顺带勾勒了从模型到智能体工具链的转变、新的自动化原语，以及一个更贴近现实的智能体知识工作基准。Z.ai 持续被验证为真正的前沿实验室，下一个里程碑是「开源何时能拿出一个 Fable 级模型」。在 BestBlogs 阅读本篇图灵奖得主押上 10 亿美元的「世界模型」，是 AI 的下一个十年？（下）（来源：十字路口Crossing，评分 90）。这篇深入解析了图灵奖得主 LeCun 押注的 JEPA 世界模型路线。他断言「VLA 必死」，但现实是当下最惊艳的机器人（能削西葫芦、倒垃圾）恰恰用的是 VLA 架构，而 JEPA 挪开一个杯子要花整整 60 秒。文章逐层对比 VLA 与基于 JEPA 的替代技术栈——从 V-JEPA 2 视觉编码器，到用 JEPA 重述 VLM 的训练方式，再到机器人规划与控制——既展示了 JEPA 在视觉编码与效率上的优势，也坦诚了它在机器人控制上的明显短板。难得地把一场技术豪赌的两面都摆上了台面。在 BestBlogs 阅读本篇从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事（来源：晚点AI，评分 88）。这篇访谈 Cerebras 早期投资人周楠，回顾了百度美国研究院在 2016 年前后对 AI 算力瓶颈的前瞻判断——当时吴恩达任负责人，Anthropic 创始人 Dario Amodei 也曾在那里工作，团队很早就形成了「更大模型、更多数据、更强算力」的共识。文章解释了 Cerebras 的 Wafer-Scale 架构价值（把整片晶圆做成一个超大 AI 计算引擎，减少数据搬运），以及它作为英伟达在推理等特定负载上挑战者的真实定位。最值得回味的一句是：当所有人都在追逐 AI，真正稀缺的不是相信 AI，而是判断下一个发展瓶颈。在 BestBlogs 阅读本篇 DeepSeek 背后的 356 人：一份白皮书揭开中美 AI 人才战争（来源：AINLP，评分 88）。斯坦福胡佛研究所与 HAI 更新白皮书，用论文作者网络（而非员工名单）追踪 DeepSeek 七篇核心论文（从 2024 年 1 月的开源 LLM 一路到 2026 年 4 月的 V4 预览版）背后 356 名研究和工程贡献者的职业轨迹。结论很有意思：核心 31 人保持稳定，说明技术路线没有频繁断裂；而「一篇论文贡献者」从 23 人增至 136 人，说明 DeepSeek 能把外部或边缘任务能力快速接进主线研发。这种「稳定核心 + 快速补员」的分层结构，比任何模型榜单都更能解释它的持续产出能力。在 BestBlogs 阅读本篇 ACL 2026 | 腾讯混元发现「不完全学习」，SFT 仍漏学 15% 训练数据（来源：PaperWeekly，评分 88）。腾讯混元与 UNSW 联合团队在 ACL 2026 发表论文，系统性地揭示了一个被忽视的现象：即便 SFT 训练已收敛、loss 已平稳，模型在训练集上重测平均仍有 15.3% ± 2.1% 的样本答不对，作者将其命名为「不完全学习现象（ILP）」。更值得警惕的是，这些未学习样本并非随机分布，而是系统性地集中在罕见实体、多步推理、与预训练知识冲突等最有价值、最难标注的复杂样本上。论文进一步给出了从检测、归因到干预的完整框架，对所有做垂直领域微调的团队都有直接的成本与可靠性启示。在 BestBlogs 阅读本篇如何围绕公司隐性规则设计智能体系统（来源：HBR.org，评分 89）。这篇用一个金融服务的真实案例切入：一位高净值客户更新受益人信息，AI 路由、运营处理、沟通确认每一步都「按设计正确执行」，但一个月后客户却把账户转去了竞争对手。问题在于，经验丰富的顾问能从一次次季度沟通中读出 CRM 字段里没有的「对话信号」，而这恰恰是当前智能体系统的盲区。文章主张，对 AI 智能体而言最关键的组织智慧并不在文档化的流程里，而是隐含在由知识、动机和判断力构成的非书面系统中，并为此提供了一个设计框架。和精讲三的「上下文层」遥相呼应——只是这次讲的是那些难以结构化的隐性上下文。在 BestBlogs 阅读本篇 AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码（来源：宝玉(@dotey)，评分 90）。这是一篇高质量原创 Thread，针对「如何让 Agent 生成的代码更好地满足需求、减少新版本上线后的不稳定、并实现线上问题的自动化修复」，给出了系统性的工程实践建议：需求分析要提供充足上下文、系统设计拆分里程碑并用 plan 模式对齐共识、代码审查拆细且 Agent 审查加人兜底、自动化测试覆盖并接入 CI、灰度发布与 feature flag、建立 CI/CD 自动化部署与回滚机制。核心观点很实在：与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 少发生。可以和精讲一里 Fiona 的「bad/sad 框架 + specs 入库」对照着读。在 BestBlogs 阅读本篇 ## 补充阅读以下几篇适合按兴趣选读，覆盖企业级 Agent 落地、提示词工程、模型评测与产业观察。 - AI 智能体让 OpenAI 的数据变得有意义（InfoQ，评分 90）：详细介绍 OpenAI 如何构建内部数据分析智能体 Kepler，利用丰富的数据上下文、记忆与评估来回答横跨 7 万个数据集的复杂问题。和今天 GitHub 的 Qubot 几乎是同一道题的两种解法，适合做企业数据 Agent 的团队对照阅读。在 BestBlogs 阅读本篇 - 面试官：「你看过 Claude Fable 5 系统提示词吗？」（小林coding，评分 89）：以网传泄漏的 Claude Fable 5 系统提示词为范本，逐段拆解其工具定义、知识边界、安全红线与交互风格，提炼出可直接用于 AI Agent 与提示词工程的实践原则。适合想从一线产品的「内部手册」反推提示词工程方法的读者。在 BestBlogs 阅读本篇 - GLM-5.2 如何在 Design Arena 中击败了 Fable 5（Draco正在VibeCoding，评分 88）：GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中登顶，成为首款 MIT 授权的开源冠军，价格仅为对手的零头。文章逐案例分析了它避开常见编码错误、生成更精致页面的具体表现。和速览里的 AINews 互为补充，关心开源模型进展的可一并读。在 BestBlogs 阅读本篇 - 「机器学习之父」Jordan：Hinton 等「思想领袖们」正在伤害年轻一代（机器之心，评分高分推荐）：Michael I. Jordan 尖锐批评 AI 领域的「思想领袖」文化，认为 AGI 是公关术语、末日叙事正在伤害年轻一代，并主张用统计学、经济学与计算机科学三足鼎立的框架重新定义 AI 研究。适合想跳出热点、听一听清醒批判声音的读者。在 BestBlogs 阅读本篇 - 对话王小川：造医生，战豆包，与无尽的 AI 非共识（硅星人Pro，评分高分推荐）：王小川系统阐述百川智能聚焦 AI 医疗的战略逻辑——面对通用模型的冲击，选择以「造 AI 家庭医生」为切入点，通过医学增强模型和与顶级医院深度共创，在供给端创造新价值，而非在 Coding 等共识赛道内卷。适合关注 AI 产业差异化打法的读者。在 BestBlogs 阅读本篇 - 从零构建受 OpenClaw 启发的 AI 智能体（freeCodeCamp.org，评分 90）：一套基于 Next.js 与 Vercel AI SDK 的端到端实战课程，在同一运行时中整合上下文高效的工具、用户级记忆、持久人格、Telegram 接入与定时工作流。适合想动手把「Agent 架构」从概念跑通到能部署的开发者。在 BestBlogs 阅读本篇 ## 今日阅读路径如果你今天时间有限，建议按下面的顺序读这 3 篇： 1. 精讲一 · Anthropic Claude Code 负责人 Fiona Fung 的一线实践（Lenny's Podcast）——先建立「编码不再是瓶颈、约束转向验证」这个总框架，它是理解今天大半内容的钥匙。 1. 精讲三 · 我们如何构建内部数据分析智能体（The GitHub Blog）——再看一个可落地的工程样本，理解「结构化上下文让答案又快又准」这一关键洞察。 1. 精讲二 · 库克的离场，苹果新 AI 权力重构｜WWDC26（硅谷101）——最后用苹果这个大公司样本，看「拥抱变化」与「守住价值观」之间的真实张力。读完这 3 篇，再回到速览与补充阅读里，挑 1 到 2 篇最贴合你当前方向的内容做延伸阅读即可，不必贪多求全。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍，采用常驻远程会话和定时 agent 自动生成 PR，以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任，John Ternus 接任；AI 权力重构：John Giannandrea 离开，Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报，从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced，云端 AFM Cloud Pro，端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot，采用三层架构，返回正确答案速度提升 3 倍。

AYi@AYi_AInotes · 6月22日57

用Hermes Agent的最大痛点被解决了哈哈，要知道社区里那些神级工作流全都沉在 X 和 Discord 里了，直到我看到这个Hermes Bible，有好心人把Hermes Agent的所有干货都攒到一起了，这个站把 169 页官方文档吞进去，还反刍出 24 个能直接抄的真实工作流，比如从 Jira 到 PR 的自动过渡，这种例子直接摆在那给你看。三个让我决定推荐的理由： 1️⃣ ⌘K 即时搜索，想找什么不用翻目录跟 Alfred 一样，打关键词直接定位到对应章节 2️⃣ 完全社区驱动你把自己的工作流分享上去，个人资料页就挂在站里，每个人都能从别人那里偷师 3️⃣ 169 页文档全整合官方文档散在好几个地方，这个站帮你全捞到一个地方了，再不用开五个标签页来回翻一句话判断是否需要：如果你每次开 Hermes 都要重新想提示词，这个站就是给你准备的。

译Hermes Bible 将 Hermes Agent 169 页官方文档整合一体，提炼出 24 个可直接抄的真实工作流（如 Jira 到 PR 自动过渡），支持 ⌘K 即时搜索定位章节，社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。

meng shao@shao__meng · 6月22日67

前 Meta/Microsoft/Atlassian 主任工程师的 Agentic 工程工作流用这套工作流 @kunchenguid 每天 ship 40-50 个经测试的生产级 PR，他这么形容它：「你是船长，agent 是你的船员，分四层递进: 造船 → 训练船员 → 与单个船员协作 → 并行指挥多个船员 + 一位大副」。 https://www.youtube.com/watch?v=iQyg-KypKAA # 终端中心主义(造船) 坚持全终端工作，核心理由： · 手不离键盘 = 维持心流,鼠标切换会强制上下文切换 · 跨设备一致性——同一套工作流可在手机/不同机器上接续工具栈：WezTerm (跨平台、Lua 配置、热重载) + tmux (会话持久化、多 pane、可远程 attach) + Neovim (键盘优先、相对行号)。 # 船员的入职培训(Memory + Skills) agent 是新兵，不知道你的偏好。两类机制 ramp up：Memory 和 Skills 1. Memory · 全局 memory(如 ~/.claude/CLAUDE.md)：保持精简(27 行)，因为内容会注入每次会话的系统提示词，过长会"静默"消耗 token · 几条有洞察的偏好规则： 1. 不要用 em-dash(—)——AI 默认会用，显得机械 2. 做技术决策时不要高估开发成本——模型用人类数据训练，会高估耗时(预估"天/周",实际几分钟出可玩版本)，这种偏差会让模型偏向"便宜但低质量"方案。这条是纠正模型训练偏差 3. bug 修复优先端到端复现，而非依赖单元测试 · 项目级 memory：核心方法不是手写，而是每次纠正 agent 后让它把教训写进去——项目集体学习的沉淀 2. Skills · 把条件性内容(如仅改代码时才需要的 E2E 说明)从 memory 抽到 skill · skill 启动时只加载简短描述，用到才读全文——避免无谓 token 消耗 3. 关于 skills 的重要警告 · Karpathy 的 skills 仓库(17.7 万 star)经 program-bench 评测后，使用反而多耗 5% token 且结果更差，且并非 Karpathy 本人所写 · 安全风险：skill 可在机器上执行任意命令，可能泄露 API key 甚至银行凭证 · 结论：流行 ≠ 优质。不要装声称"神奇提升"却无严格评测的 skill # 与单个船员协作 1. 语音输入 · 几乎全用语音替代打字(Stanford 论文：说话比打字快 3 倍) · 工具 OpenSuperWhisper：本地 whisper，免费开源，通过 system prompt 注入自定义词汇表提升专有名词识别 2. AXI 标准 (Agent ergonomics) 自创的为 agent 优化工具的设计标准： · 实测：同样 GitHub 任务，MCP server 比 CLI 多耗 3 倍 token + 2 倍延迟 · 设计原则之一：token 高效输出格式比 JSON 节省 ~40% token · 启示：给 agent 的工具本身的效率，直接决定 agent 的"油耗" 3. Lavish (交互式规划工件) 针对"agent 返回一堵文字墙难以评审"的痛点：让 agent 生成 HTML 可视化工件，复用项目设计系统，可针对具体元素批注反馈并在浏览器内回传。 # 验证：no-mistakes 流水线(质量基石) 反直觉主张：不要逐个 review diff。 · 理由：AI 写代码太快，逐 diff 审查会让人成为瓶颈且无趣 · 类比：像工程总监一样思考——总监不审 PR，而是通过文化和流程把控质量流水线在隔离 worktree 中执行: · 分析会话还原真实意图 · rebase 到最新 main，提前解决冲突 · 对抗式 review(独立上下文窗口)——多数问题在此被捕获自愈，模糊的升级人类 · E2E 测试并录制证据(截图/视频/日志) · 文档更新 + 链接检查 · 推分支开 PR，持续 babysit 直到合并 PR 呈现：原始意图、变更摘要、测试证据、流水线发现并修复的问题、风险评估。评审策略：看风险评估决定投入精力。低风险几乎不看 diff(因流水线已覆盖)，只对高风险深入。工作分布洞察：时间花在任务开头(用 Lavish 澄清需求)和结尾(把质量关)，中间全交给 AI。中间腾出越多，并行越多。 # 长时间运行：good-night-have-fun 解决"睡觉 8 小时如何让 agent 持续干活"：给目标和停止条件，在循环中迭代。相比 Claude Code/Codex 的 /go，优势是可精确设置 token 上限 / 迭代上限 / 停止条件——避免睡醒发现周配额耗尽。 # 并行：treehouse + worktree git worktree 的痛点：起名、记状态、手动清理 = 认知债。treehouse：运行即落入空闲 worktree，关闭 tab 自动释放，treehouse status 一目了然。 # First Mate：大副编排器并行会话变多后，上下文切换疲惫。 First Mate 是元 agent，替你管理所有船员：你只跟它对话,它自动拆并行子任务、调用 treehouse 建 worktree、跑 no-mistakes、准备 PR。关键观察：用了 First Mate 后，瓶颈从"agent 执行力"转移到"你想让它做什么"——船长的价值转向战略：理解用户、研究竞争、画好"藏宝图"。

译kunchenguid发布45分钟视频，讲解每天交付40-50个生产级PR的工作流。四层：1）终端中心（WezTerm+tmux+Neovim）；2）船员入职：全局memory精简27行，项目级memory由agent自写；3）协作：语音输入OpenSuperWhisper，AXI标准（MCP比CLI多耗3倍token+2倍延迟），Lavish交互式HTML工件；4）验证：no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree，First Mate元agent调度。

Rohan Paul@rohanpaul_ai · 6月22日52

Techcrunch: Ambani is turning Jio’s 500M-user telecom network into India’s biggest testbed for everyday AI agents. Jio Call Agent will sit inside phone calls, listen with consent, transcribe speech, summarize conversations, and trigger actions like cab booking or food ordering. The plan looks like where AI is moving from a separate app into the network layer. --- techcrunch. com/2026/06/19/billionaire-ambani-wants-ai-in-every-call-app-and-home/

译Techcrunch: 安巴尼正将Jio拥有5亿用户的电信网络转变为印度最大的日常AI智能体试验场。 Jio Call Agent将嵌入电话通话中，征得同意后监听、转录语音、总结对话，并触发行动，如打车或订餐。这个计划看起来像是AI正从独立应用向网络层移动。

elvis@omarsar0 · 6月22日58

I don't even prompt/speak to agents that much anymore. With loops, agents do most of it for me now. I do spend more time writing verifiers to provide additional rich instructions (text+audio+images) that help fill in gaps. What's next? Hard to tell!

译Elvis Saravia（DAIR.AI）称他如今很少直接向智能体提示，而是依靠循环（loops）让智能体自主完成大部分工作。他转而花更多时间编写验证器（verifiers），通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充，2026年6月起应放弃手动编辑提示词，改用语音听写10分钟，将碎片、警示、示例和氛围直接灌给模型——大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Rohan Paul@rohanpaul_ai · 6月22日45

"The model is no longer the product. Codex, Perplexity Computer, or Claude Code - all are orchestration system. It takes a model and pairs it with an agent harness. What is an agent harness ? The rules for how the agent loops around" - Aravind Srinivas

译"模型不再是产品。 Codex、Perplexity Computer 或 Claude Code —— 全都是编排系统。它用一个模型，再配上 agent harness。什么是 agent harness？Agent 循环运行的规则。" - Aravind Srinivas

Greg Brockman@gdb · 6月22日69

codex for testing every single feature in your app:

译Greg Brockman 展示 Codex 的“循环”自动化能力：通过一句 /goal 指令，Codex 自动扫描应用的每个功能，基于代码创建用户故事与预期行为，并维护统一电子表格跟踪状态；完成后自动切换为测试每个用户故事并记录所有错误；接着修复所有逻辑与 UX 错误，最后再次验证用户行为。该循环可处理数百个用户故事，全程无需人工干预。

elvis@omarsar0 · 6月22日47

>> Scalable Evaluation for AI Agents << If you run agent evaluation in production, this one is worth your time. It shows that front-loading human judgment into reusable evaluation assets is useful. But why? Agents reason across turns, call tools, hold context, follow policies, and act under uncertainty, so they have to be judged as behavioral systems. Current methods each give a fragment. Benchmarks measure fixed capabilities, human review preserves judgment but does not scale, LLM-as-judge inherits the evaluator design problem, red teaming is episodic, and trace audits need explicit evidence rules. Human-on-the-Bridge puts human expertise upstream, where experts curate reusable evaluation intelligence before testing rather than reviewing each output in the loop. Paper: https://arxiv.org/abs/2606.16871 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法：将人类判断前置到可复用评估资产中，专家在上游策划评估智慧，而非在测试循环中逐一审查输出。现有方法各有局限：Benchmark测量固定能力，人工审核不具可扩展性，LLM-as-Judge存在评估器设计问题，红队测试偶发，trace审计需明确证据规则。AI智能体需作为行为系统评估，因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

Chubby♨️@kimmonismus · 6月22日55

Today we’re publishing an exclusive interview with Geir Engdahl, Co-Founder and CTO, AI at @CogniteData . A very sharp conversation on why industrial AI usually doesn’t fail at the model layer, but on the plant floor. We talked about: Why impressive AI pilots often never survive real operations What “context” actually means when mistakes can become dangerous Where industrial agents should recommend, automate, or stay out Why the gap between a working demo and a trusted system is massive And Geir’s bold 2028 prediction for industrial companies without AI-driven process optimization One of the most sober and least hype-driven conversations I’ve had this year about AI in the real world. Read the full interview in today’s Superintelligence.

译Cognite CTO Geir Engdahl接受专访指出，工业AI失败的根源并非模型层，而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活，因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入，强调工作演示与可信系统之间存在巨大鸿沟。他预测，到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。

Ethan Mollick@emollick · 6月22日64

A fundamental problem with extending Codex/Cowork/Code to all knowledge work is that they remain very "software-brained" where the end result (the software) is what is important & that code serves as a source of truth. For a lot of other knowledge work, the process is at least as important as the outcome. This includes researching what is known, an exploration of alternatives, failed efforts, prototype branches, experiments, etc. All of those things are valuable, so you cannot use the PowerPoint at the end the way you can use a codebase, nor is progress on a to-do list sufficient context post compaction. You work in learning loops, refining your perspectives as you go. In some ways, this makes long-running models like Fable hard to use for deep knowledge work, since they are designed to deliver product to you in the end. You can prompt your way around this problem, but everything about the Codex and Code harnesses want you to be a software developer and you have to fight them. There is a real disconnect between how a manager or analyst thinks about problems and how the agentic software tools approach solving them. Addressing this is critical to breaking out of the coding niche for these tools.

译Ethan Mollick指出，Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计，只重最终代码，而多数知识工作的过程（研究、探索、原型分支等）与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作，用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节，是突破编程领域、扩展到其他知识工作的关键障碍。

Berryxia.AI@berryxia · 6月22日53

如果用Devin的话，就能免费无限用GLM 5.2🤯 不过上下文限制最多20万，用海外版Z·ai版本直接到100万。但这已经很爽了啊，Kimi 2.7也免费的！

Berryxia.AI@berryxia · 6月21日61

卧槽！真是免费也有好东西啊！ 2026年，整个AI行业都在谈一个问题：怎么让AI自己干活。不是聊天，不是写文案。是让它像一个真正的工程师一样，自己规划、自己写代码、自己调试、自己交付。有人把这个过程整理成了一套完整的工作流，叫Agentic Engineering Workflow。没有论文，没有官方文档。是一个开发者花了一个小时，把散落在各处的实践经验拼成了一张完整的图。它覆盖了从任务拆解、工具调用、记忆管理到错误恢复的全部环节。每一步都不是理论，而是已经在真实项目里跑通的路径。大部分AI开发者还在手动写prompt。这套工作流已经在教机器怎么自己写prompt了。差距不在模型能力。在工程方法上啊！

译开发者整理出一套Agentic Engineering Workflow，覆盖任务拆解、工具调用、记忆管理到错误恢复全流程，让AI像工程师一样自主规划、写代码、调试和交付，而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度，以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通，强调工程方法比模型能力更重要。

宝玉@dotey · 6月21日68

翻译还是得用 Gemini 3.1 Pro 最好，翻译质量是没办法通过工作流弥补的，Opus-4.8 自身写作能力不行翻译的总是很生硬

译宝玉认为翻译质量 Gemini 3.1 Pro 最好，Opus-4.8 自身写作能力不行导致翻译生硬，工作流无法弥补。@LinearUncle 分享 Claude Code 方案：设置 `/effort` 为 `ultracode` 后自动触发动态工作流，包括三位译者各出一稿、双语编辑评审、综合定稿、逐句校对，并用 Claude Code History Viewer 查看历史记录。

meng shao@shao__meng · 6月21日63

60 分钟，成为 AI Native 组织：人、Agent 与上下文三层系统来自 @gregisenberg 和 @TheoTabah 60 分钟的深度对谈，一家公司究竟怎样才算 AI native，如何把它落地成可运转的系统？ https://www.youtube.com/watch?v=LztPaNmcWGU "用 ChatGPT ≠ AI native"，就像"有网站 ≠ 科技公司"。真正的 AI Native 由三层系统构成：人、Agent、上下文。 ① 人 —— 退守两端每个人都是 manager。AI 吃掉"中间的执行"，人聚焦两端： · 前端：战略、品味、判断 · 后端：沟通、评审、信任判尺（Andy Grove）：管理者的成功 = 团队的成功。把 agent 当下属来 set up for success。 ② Agents —— 满足四要素才自治 Agent = model 在 loop 中用工具。成熟度分三层：基础聊天 → 半自治（不停点 approve）→ 自治（独立运行数天/数周）。达到自治需四样：Clear Goal、Skills、Tools、Context——缺一即失败。两个关键机制： · Eval：把"质量标准 + 成功定义 + 参照文档"烤进系统，让输出可评估、可复现。 · Skill Chain：多个 skill 顺序串成 playbook。是对抗幻觉的核心机制——通过 QA skill 反复查验"是否捏造、是否源自真实记录"。类比：幻觉 = 实习生 "fake it till you make it" 被放大千倍。 ③ 上下文 —— 真正的护城河没有 context layer，人和 agent 都无法自治。 Theo 现场连问 Greg 三个关于自家公司的问题，Greg 全答"不知道"——结论：任何规模的组织，人对自己的公司都是"半盲"的。 Context layer 给 agent 一双 20/20 的视力。五阶段循环： Capture（采集）→ Curate（筛选）→ Store（存储）→ Execute（执行）→ Experience（体验）→ 回流 · Store = "Brain"：一堆文件夹 + markdown 文件，可搜索、可写回、持续改进。 · 金矿：Traces/Exhaust（中间决策、被砍方案）回流进 brain，供未来调用。 · 闸门：Experience → Capture 这一环必须有人把关，否则错误 context 污染整个 brain。两个 Live Demo（证明它跑得通） · Demo 1：提案微站系统识别到客户的"proposal request"语言 → 自动触发 skill chain（build → copy → QA）→ 3-4 分钟生成带双方品牌、含数月前通话个性化细节的可分享微站。Theo 称此系统已为 LCA 带来数百万美元收入。 · Demo 2：10 分钟产品闭环语音口述需求 → skill chain（hypothesis → prototype → usability test → feedback → V2）→ 几分钟出可点击、可播放真实音乐的高保真原型，Greg 当场手机完成测试并拿到 V2。创业方向把 "People + Agents + Context" 打包成服务，沿三向量 niche down：行业 / 职能 / 公司规模。优先做 niche + 高频的工作流，反复在销售、提案、内容里展示——几乎稳赢。三个深层判断 1. AI Native 的本质不是"用 AI"，而是"建系统"。三层缺一不可，context layer 是最被低估的护城河。 2. Skill Chain 是对抗幻觉、实现自治的关键。单 skill 不够，必须串成 playbook。 3. 速度只有能换回 signal 时才有意义。闭环越短（出原型→测用户→出 V2），护城河越深。

译AI Native组织由人、Agent、上下文三层构成。人退守两端：战略/品味/判断与沟通/评审，AI吃掉中间执行。Agent自治需Clear Goal、Skills、Tools、Context四要素，并通过Skill Chain串联多个skill对抗幻觉。上下文层是护城河，五阶段循环：Capture→Curate→Store→Execute→Experience→回流。两个Live Demo验证：提案微站3-4分钟生成个性化页面，已带来数百万美元收入；10分钟产品闭环实现语音口述到高保真原型。创业方向是将三层系统打包服务，聚焦行业/职能/公司规模。

meng shao@shao__meng · 6月21日44

帮转，DeepSeek Harness 组，职位空缺很大，做 Agent Harness 研究和工程的朋友们，冲！

译DeepSeek Harness 组（新成立部门）仍在大量招聘。职位包括：Harness 研究员（实习/全职）、Harness 工程师（实习/全职）、Harness 产品经理（仅全职）。招聘流程与 DeepSeek 其他组一致：一轮笔试加三轮面试，终面由 @tianyi 负责。可私信投递简历。

meng shao@shao__meng · 6月21日68

OpenAI Codex - Record & Replay 有些工作流很难用纯文字精准描述，但"做一遍"却很直观。比如填写报销单、配置 issue、发布视频，这类任务往往依赖大量隐性偏好，写出来冗长且易遗漏，录下来反而清晰。 Record & Replay 就能满足这个需求，给 Codex 演示一次工作流，Codex 就可以把它固化为可复用的 AI Skill。 https://developers.openai.com/codex/record-and-replay 底层逻辑 Codex uses the skill as reusable context for the task. 这说明 Skill 本身是给 AI 提供的结构化上下文。回放时，AI 可以调用当前环境中可用的工具组合（Computer Use、浏览器操作、已安装插件）来完成任务。这意味着： · Skill 是语义化的，而非死板的操作录制； · 回放时具备适应性，可以根据新输入（不同的文件、日期、issue 内容）做合理变化； · 它依赖运行环境的工具能力，而非固定绑定某一种执行方式。这是一种"演示即规格（demo-as-spec）"的设计哲学。工作流程的两阶段阶段 1：录制（Record） 1. Plugins → + → Record a skill 2. Codex 先建议一个 prompt，你可以补充上下文（目标 + 可变输入） 3. 授权录制权限后开始演示 4. 演示完毕，从菜单栏/浮层停止，或直接告知 Codex 完成 5. Codex 自动分析录制内容并起草 Skill：包含「何时使用 / 需要哪些输入 / 步骤 / 如何验证结果」 6. 可进一步 refine（提炼隐性偏好）阶段 2：回放（Replay） 1. 新建会话，要求 Codex 使用该 Skill 2. 提供本次不同的参数值（文件、日期范围、issue 内容等） 3. Codex 调用环境内工具完成任务高质量录制的五条原则（最佳实践） 1. 短而完整 —— 录一次完整闭环，不录半截。 2. 提前声明变量 —— 把"每次会变的输入"告诉 Codex，便于参数化。 3. 真实但脱敏 —— 用真实数据形态，但绝不录入密钥/敏感信息（这点是安全红线，录制会捕获窗口内容）。 4. 补录隐性规则 —— 录制后主动 refine，把命名约定、默认值、决策点写清楚，这是 Skill 质量的关键。 5. 及时停止 —— 任务完成立即停，不要顺手做无关清理，避免噪声混入 Skill。关键决策：Record & Replay vs. Plugin · 目标：个人/快速 Skill 化 vs. 团队级稳定分发 · 形态：单一 Skill vs. 可打包多 Skills + MCP + 集成 · 成本：低（录一次） vs. 高（需规范构建） · 适用：个人偏好型工作流 vs. 标准化、可复用资产

译OpenAI Codex 新增 Record & Replay 功能，用户可通过“演示一次工作流”创建可复用的 AI Skill。底层将 Skill 作为结构化上下文，回放时具备适应性，能调用当前环境中的工具完成任务。流程分两阶段：录制时 Codex 分析操作并自动起草 Skill（含使用时机、输入、步骤、验证）；回放时用户提供新参数，Codex 自动执行。官方总结了五条高质量录制原则：短而完整、提前声明变量、真实但脱敏、补录隐性规则、及时停止。该功能与 Plugin 形成互补：适合个人快速 Skill 化，而非团队级分发。

Berryxia.AI@berryxia · 6月21日28

Creao AI 招人了，一款之前给大家推荐不错的产品。可以看看其条件👇

译AI 智能体公司 CREAO 近日完成 3000 万美元融资，用户与收入快速增长。现开放三个岗位：Agent Product Engineer（全栈，直接定义产品，负责智能体创建、配置、执行、记忆、工具调用等核心体验）；Forward Deployed Engineer（将 Agent 落地于复杂企业生产系统，需 3 年以上企业客户技术经验）；Product Marketing and Technical Growth（构建面向 founder/builder/developer 的叙事与增长体系，覆盖获客、激活、留存、商业化）。简历投递：evelyn@creao.ai。

Berryxia.AI@berryxia · 6月21日41

兄弟们，喜大普奔哈哈！ DeepSeek-V4-Flash 免费到6月28号，直接冲啊！ 284B MoE，1M上下文，编码和Agent能力都不错，直接可以用起来，截止日期到6月28号。链接：https://www.openmodel.ai

🚨 AI News | TestingCatalog@testingcatalog · 6月21日59

ClickUp's Brain AI will now be able to create agents on its own! > Brain now spots when a task is worth handing off and offers to build a dedicated agent. > It ships preconfigured, with triggers, rules, and scope already in place. > Work keeps moving after Brain finishes, with the agent owning the recurring side. Users can ask Brain to triage incoming bugs once, and it will then propose a standing agent that monitors new reports, assigns severity, flags duplicates, and automatically files tasks.

译ClickUp Brain AI 新增自主创建 agent 的能力：当检测到适合委派的任务时，Brain 会提议构建一个专用 agent，预配置好触发器、规则和范围。agent 接管重复性工作后，原来主流程可继续推进。例如，用户只需让 Brain 一次性分流新上报的 bug，它就能提议一个常驻 agent，持续监控新报告、分配严重性、标记重复并自动归档任务。

ginobefun@hongming731 · 6月21日67

http://x.com/i/article/2068589784554250240 # BestBlogs 精选周刊 · 第 100 期特刊｜百篇回顾：两年里，答案变便宜，判断变贵 > 🎧 本期也有播客版本：BestBlogs 周刊第 100 期 · 百篇回顾，约 24 分钟，在小宇宙搜索「BestBlogs 周刊」即可收听。在线阅读和查看所有链接：https://www.bestblogs.dev/newsletter/issue100 ## 导语每周一篇，我们把精选周刊做到了第 100 期，差不多走了两年。借这一期特刊，我们想做件不太一样的事：不聊这一周，聊这两年。先用一句话交代来路。2024 年 3 月，BestBlogs 上线了第一个版本，简单到只有一个页面，背后是一批优质技术社区的订阅源，用大模型做摘要、评分和排序。两个多月后，我们发出第一期精选周刊，从 1000 多篇内容里选了几十篇，发给近 100 位读者。两年下来，这个精选库里攒了 6400 多篇内容，每周发送给近 2 万人。这一期，我们就从这些内容里，回头看一看。如果你和我们一样，过去两年每周都在追 AI，大概会有个感觉：进展是碎的。这周一个模型，下周一个工具，信息量很大，却很难看出门道。但把 100 期连起来看，会浮现出一条相当清晰的线。我们把它总结成一句话：这两年，答案变得越来越便宜，而提对问题、做对判断、为结果负责，第一次比答案更值钱。这条线由内向外分成六层，从最硬的模型内核，一路看到人的位置： - 一、模型层：模型从会回答，到更能完成任务 - 二、AI Coding：第一个被彻底改写的工种 - 三、工程范式：从写提示词，到管理上下文、规则和循环 - 四、Agent：这些方法拼成了可复用的能力 - 五、产品与商业：软件的卖法从卖工具挪向卖结果 - 六、领袖与思想：当机器越来越会回答，人该把精力放在哪这不是一份 AI 编年史。每条线我们只挑一两个最值得讲的故事，把它讲透。完整的 100 篇推荐清单在文末，你可以挑感兴趣的深读。每章末尾，我们也会用一小段，聊聊 BestBlogs 自己在这件事上的对应变化，作为一个一线小项目的注脚。 ## 一、模型层：从会回答，到更能完成任务如果只用一句话概括这两年的模型层，那不是谁的参数更大，而是模型变强所依靠的东西，整个换了一遍。早期模型变强，主要靠堆训练数据；后来这条路走到头，新的增益更多来自让模型在回答前多花算力去推理；再往后，又变成让模型能长时间、分步骤地把一件复杂的事完整做完。三个阶段叠起来，模型就从一个一问一答的知识库，长成了能独立干活的执行器。这个变化里节奏最密、冲击最大的一段，是 2024 年底到 2025 年初 DeepSeek 干的两件事。先是 12 月底的 DeepSeek-V3，6700 多亿参数、每次只激活 370 亿，训练成本据其披露仅约 557 万美元，而同级别一些模型光算力就是它的十倍以上。约三四周后，2025 年 1 月 20 日的 DeepSeek-R1，用纯强化学习跑出对标 OpenAI o1 的推理能力，并以最宽松的协议开源，连思考过程都放出来。这里有个顺序值得点明：是 V3 这个效率基座在前，R1 才站在它上面把推理开源。市场反应比技术圈还激烈，R1 发布一周后，英伟达单日暴跌约 17%，一天蒸发近 6000 亿美元市值。但更值得讲的是它戳破的那个共识：想要前沿能力，你得有万卡集群、烧巨额的钱。DeepSeek 用一个五百多万美元的模型把这个共识捅了个窟窿。Stability AI 前 CEO 当时的调侃流传很广：全天候跑 V3 一天成本也就 2 美元，你是要一杯拿铁，还是一个 AI 助手？清华刘知远的总结最到位：OpenAI 犯了「傲慢之罪」，不开源、不公开、定价又高，把本该属于自己的「ChatGPT 时刻」让给了 DeepSeek。留下来的是效率与开源这条路，它后来基本成了国产大模型的范式，一路延续到今年的 V4。而当时满屏「英伟达完了、算力不再重要」的恐慌，现在反倒没人提了，算力需求一点没少，只是光靠堆资源就能领先的时代结束了。 → 阅读原文（DeepSeek-V3）：https://www.bestblogs.dev/article/ec521c → 阅读原文（DeepSeek-R1）：https://www.bestblogs.dev/article/0be315 如果说 DeepSeek 讲的是模型变便宜，那另一条同样重要的暗线，是模型开始真能干活。给个刻度：2025 年 5 月的 Claude Opus 4，亮点是能在持续数小时的长任务上稳定运行，日本的乐天用它独立跑了 7 小时做代码重构；一年后，2026 年 6 月的 Claude Fable 5，据 Stripe 早期测试披露，用一天时间给一个 5000 万行的代码库做了全库迁移，而这原本是一个团队两个多月的活。从持续数小时到一天干完团队两个月的活，这个刻度一年就翻了好几番。需要说明，这个数字来自 Stripe 自己的报告。 → 阅读原文（Claude Fable 5 与 Mythos 5）：https://www.bestblogs.dev/article/11f30fed BestBlogs 注脚：模型能力是上游，我们这种小项目在下游，水变了最先冲刷到我们。早期处理一篇长文，得先切段再逐段总结，翻译还要走「初译 → 反思 → 改进」三段式，全是为绕开模型短板搭的脚手架。换到更新更便宜的快速模型后，整篇丢进去就能稳稳读完，脚手架一层层删掉，提示词反而越写越短。模型每强一代，所有人为迁就它而堆起的复杂度，就消失一层。 ## 二、AI Coding：实现变便宜，证明代码有效变贵 AI 编程这两年走得很快，从代码补全，到能自己干活的智能体，再到规约驱动。但与其按工具一个个数，我们更想从一个反直觉的故事讲起，因为它正好接着上一章那句话：能力变便宜，意味着什么变贵了。你可能听过「编程智能体能连续干 7 小时」，容易脑补成它一口气写了十万行。但真实情况几乎相反。OpenAI 的 Codex 上有个例子：一位工程师让它跑了 7 小时，期间迭代 200 多轮测试，最后交出的代码改动只有大约 500 行，而且被合并进了主干。那 7 小时绝大部分不是在写代码，是在反复验证这 500 行到底对不对。一句话就能讲透整个时代的切换：代码变得越来越便宜，但证明代码有效这件事，变贵了。OpenAI 的工程师提了个「新的进度单位」：衡量进展不再看写了多少行，而是看错误更少了、代码审查更顺了、对这段代码的信心更足了，哪怕改动很小。这个判断在 Claude Code、Codex、Cursor 三家身上都成立。 → 阅读原文（GPT-5-Codex 发布全解）：https://www.bestblogs.dev/article/6048ef 这一波最早是谁趟出来的？说说 Claude Code 的起源，它有点反差。它不是被规划出来的产品。Anthropic 的工程师 Boris Cherny 最早只是为搞懂自家 API，随手写了个调 API 的小聊天终端，自己都没料到终端会是终点而非起点。还有个细节：他刚加入时第一个代码请求被拒，不是写得差，而是因为那是纯手写的。到今天，据 Anthropic 内部披露，Claude Code 写了内部平均约 80% 的代码，Boris 说自己从去年 11 月起没再手写过一行。它好用的秘密不在模型多强，而在那条朴素到极致的主循环，有团队第一时间逆向它，结论就四个字：大道至简。Boris 还有句话值得记：我们不为今天的模型构建产品，而是为六个月后的模型构建产品。 → 阅读原文（Claude Code 逆向拆解）：https://www.bestblogs.dev/article/2ffaa4 → 阅读原文（Boris Cherny 访谈）：https://www.bestblogs.dev/article/f884575 把这两个故事放一起，它们说的是同一件事：实现一段代码正变成最不值钱的部分，而判断要做什么、验证做得对不对、为结果负责，成了人真正该待的位置。所以这一章留下来的，是验证闭环成了新瓶颈，人正从写代码的人往审代码的人挪；退潮的，是把「能干 7 小时」理解成「能自动写十万行」的神话。顺带提醒，上面那些 80%、90% 多的数字都是各家内部披露，参考可以，别当成行业普遍水平。 BestBlogs 注脚：我们也吃到了这波红利。上一期周刊提过一个彩蛋，我们的世界杯特刊页面，从设计到开发基本是 Claude Fable 5 做的，我们主要是提需求和验收。看着模型给你干活、自己退到审核位置上，那种感觉正好就是这一章讲的事。 ## 三、工程范式：人被逼着把隐性判断写成文字这一章稍微抽象，讲的是我们和模型协作的方法这两年怎么进化。粗线条说，是从调「模型说什么」（提示词），到调「模型看什么」（上下文工程），再到调「模型在什么环境里跑、被什么约束」（Harness），最后到让模型在闭环里自己迭代（循环）。名字不重要，用两个有人物的小故事来讲。第一个故事，是一个词怎么火的。「上下文工程」今天听着像门正经手艺，但它的走红其实是一场命名接力赛。最早把它作为正式术语讲清楚的，是 Cognition 团队的 Walden Yan；真正出圈靠两条推文，先是 Shopify 的 CEO 公开说喜欢这个说法，一周后 Andrej Karpathy 转发加码，说他更喜欢「上下文工程」而非「提示词工程」。Karpathy 给了个好懂的比喻：大模型像中央处理器，上下文窗口是内存，上下文工程就是操作系统级的内存调度。火的是一个词，但真正站住的是它背后那句话：模型已经够聪明，它做不成事，往往不是不够聪明，是你没把对的信息在对的时候喂到它面前。所以「提示工程已死」那种口号很外行，提示工程没死，只是退到了幕后。 → 阅读原文（上下文工程命名史）：https://www.bestblogs.dev/article/9edea5 第二个故事更有画面感，是一次失败。2025 年 5 月，Anthropic 想让 Claude 不是改个 bug，而是从零搭一整个 Web 应用、连续跑好几个小时。他们按当时最好的上下文工程实践搭了第一版，结果全面溃败，暴露出几个典型的坑：想一步到位、编译没过就宣布干完、没做端到端测试就标记完成。这次溃败逼出一个认知：上下文工程管的是信息往哪存、怎么取，但它不管流程，而流程得有人专门管，这一层就是 Harness。HashiCorp 创始人有句话最实在：每次发现 Agent 犯了一个错，你就工程化一个解法，让它永远不可能再犯同样的错。 → 阅读原文（Harness 十五个月进化史）：https://www.bestblogs.dev/article/5b7ab5d5 这条线推到极致，是让模型在循环里自己迭代。OpenAI 一个前沿团队做过相当激进的实验：5 个月、全程零行人工编写的代码、连合并前的人工评审都没有，交付了一个超过 100 万行的内部产品，团队里有人甚至说，一天用不到 10 亿 token 差不多就算失职了。但越是这种数字，越要记住一个词：认知投降。当你把循环当拐杖，不再理解系统在干什么，工程质量会被悄悄侵蚀（这个词我们在最后一章还会再碰到）。所以这一章真正沉淀下来的，不是某个提示技巧，而是一个动作：人被逼着，第一次把过去藏在资深工程师脑子里的隐性判断（什么叫好、什么算对）一条条写成模型和人都能读的文字。演进的其实不是工具，是人对自己那点隐性知识的认知。 ## 四、Agent：真正站住的是一套冷静的工程常识 2024 到 2025 年，Agent 这个词被用到烂大街，套壳聊天机器人也敢叫 Agent。收住这场混乱的，不是某篇雄文，而是一份冷静的官方指南。OpenAI 的《构建 Agent 实用指南》开门见山把界线画死：真正的 Agent 是能让模型自己控制工作流的系统，单步翻译、情感分类都被挡在门外。它最该被记住的是一句反直觉的话：能用确定性的流程图解决的，就别强行上 Agent。一家卖 Agent 工具的公司在劝你少上它卖的东西，分量就在这。后来连衡量方式都变了，吴恩达分享过一组数字：同一个模型直接写代码正确率约 48%，套上能自己迭代、自检的 Agent 流程，能冲到 95%，比换个更强的模型还猛。 → 阅读原文（OpenAI 构建 Agent 实用指南）：https://www.bestblogs.dev/article/551c99 Agent 之间怎么配合，行业里吵过一架。几乎同时，两家很有发言权的公司甩出标题完全相反的两篇文章，一篇《别构建多智能体》，另一篇《我们如何构建多智能体研究系统》。看着像要打起来，却被读出同一个结论：这不是立场之争，是任务形态之争。判据简单到能记一辈子：读的活适合拆开并行，写的活必须留给单体，因为多个 Agent 一起写就会互相打架、产出没法合并。Anthropic 有数据印证，广撒网做调研的任务上，多智能体比单体高了九成多，但代价是一次普通聊天用一份 token，单个 Agent 用四份，多智能体能用到十五份，只有任务足够值钱才划算。 → 阅读原文（何时构建多智能体系统）：https://www.bestblogs.dev/article/cdd786 这一章还有一条线离我们最近，就是 Skills。2025 上半年大家抢着搭 Agent，下半年关键词变成写 Skills。一句话讲明白：Skill 就是 Agent 的一份「入职培训手册」。把领域知识一次写下来，它需要时自己翻、用完就放下，物理形态朴素到一个文件夹加一个说明文件。最巧妙的是渐进式加载：平时只让模型记住技能的名字和一句简介（约 100 token），判断相关了才读完整手册，所以你能装一大堆而不撑爆上下文。它和工具调用协议不冲突，分工很清楚：协议负责让 Agent 连到外部工具，Skill 负责指挥它该怎么调、什么时候调，一个管能力，一个管知识。 → 阅读原文（Datawhale 拆 skill-creator）：https://www.bestblogs.dev/article/352c89c1 → 阅读原文（Skill 与 MCP 的关系）：https://www.bestblogs.dev/article/f02d2b60 所以这一章站住的不是某个炫酷框架，而是一套冷静常识：先问需不需要、能拆就拆、把判断和执行分开；退潮的是「万物皆 Agent、套个壳就叫智能体」的概念膨胀。 BestBlogs 注脚：为什么说 Skills 离我们最近，因为 BestBlogs 整套日常运营，从内容分析、打标、生成早报到做这期播客，背后就是几十个这样的 Skill 在驱动。我们对那句话体会很深：你不是在给人写文档，你是在给模型写指令，读者搞错了，整篇就废了。 ## 五、产品与商业：从卖工具挪向卖结果先从一个被烧穿的套餐讲起。Anthropic 把 Claude Code 做成 200 美元/月、不限量的套餐，这已是抵御成本相当高明的设计：价格提了十倍，按负载自动把任务从最贵的模型降级到便宜的，还把一部分计算卸到用户机器上跑。结果还是被一个用户用一行简单的循环代码烧穿，那个月这人烧掉约 100 亿 token，相当于一个月读了 12500 本《战争与和平》。这件事说明一个反直觉的道理：任何订阅模式下都不存在一个行得通的固定无限价格，这不是没定够高，是物理规律。推理成本确实每年大幅下降，但降的是过期的旧模型，你真正想用的最强能力，永远不便宜。 → 阅读原文（Token 正变得越来越贵）：https://www.bestblogs.dev/article/083769 成本之外，企业把 AI 用起来最难的一步，可能和 AI 本身没关系。讲企业落地最实在的一篇，是阿里云一位 CIO 的复盘：三年里在内部落地 28 个数字人项目，它们在 HR 系统里有工号（以 AI 开头，AI001、AI002），汇报给业务部门，和正式员工一样被对待。但他用两年血泪换来的方法论里，最致命的第一步不是模型，而是重组生产关系，他甚至发现连团队对模型能力边界的认知都对不齐，得先「书同文车同轨」让全员考个 AI 认证。他还有个反焦虑的原则：别拿 AI 跟「神」比、要求 100% 正确，要拿它跟「人」比，只要比人做得更好更准就有意义。类似的话从 Block 的 CTO 嘴里也讲了出来，他管着 4000 名工程师，那句反共识的话是：最有用的改变和 AI 无关，而且很无聊，说的是把按事业部切的架构改成统一职能型，这种组织变革带来的提升超过任何单个 AI 工具。还有美图，一家 17 年的公司逼自己反惯性，据创始人内部分享，整体 AI 编码普及率已达 86%。这几家讲的是同一件事：最大的阻力从来不在模型，在组织和认知。 → 阅读原文（阿里云 28 数字人 · RIDE 方法论）：https://www.bestblogs.dev/article/80981c 把这些串起来，软件的卖法正发生根本挪动，从卖席位、卖工具，挪向卖结果。这一点在第三届红杉 AI 峰会上说得最直白：150 位顶级创始人闭门 6 小时，白板上留下一句话，下一轮 AI，卖的不是工具，而是收益。演进链很清楚：卖工具（你用它）→ 卖协作（它陪你干）→ 卖成果（它替你交付）。红杉由此判断，AI 应用的价值会超越模型本身，赢家不是谁参数多、跑得快，而是谁能把结果交付闭环做完。他们有个形象的说法：你以为 AI 在抢软件那点预算，其实它在进入工资单。峰会也有更激进的预言，比如会出现第一家只有一个人的独角兽，这些更像对未来的展望，听个方向就好，别当成已发生的事实。 → 阅读原文（红杉：卖的不是工具，是收益）：https://www.bestblogs.dev/article/1e3156 BestBlogs 注脚：我们是个特别小的团队，但这两年能把内容分析、早报、周刊、播客这一整套做下来，靠的正是把一件件事交给模型完成。卖结果我们没法替别人下结论，但模型让一个小团队能干以前一个团队才能干的活，这个变化我们实实在在踩在脚下。 ## 六、领袖与思想：答案变廉价，提问变值钱这两年我们读了几十场和 AI 领袖的长访谈，他们吵的问题各不相同（AGI 还有几年、算力往哪堆、软件变成什么），但一旦落到「人该做什么」，答案出奇一致。最有范式宣言气质的，是 OpenAI 科学家姚顺雨的《下半场》。他的判断不是哪年到 AGI，而是规则变了：AI 的下半场会从「解决问题」转向「定义问题」，在这个新阶段，怎么评估一件事做得好不好，比怎么把模型训出来更重要。他还有个扎心的观察，叫「效用问题」：AI 能拿 IMO、IOI 金牌，能力上超过大多数律师，但从整个社会的产出看，世界几乎没怎么变。配着 Karpathy 那句一起读特别有味道：编写代码已不再是一个准确的动词，他现在每天大部分时间是在向他的 Agent 表达自己的意图。写代码的门槛在塌，人的杠杆点整体往上挪了一层。 → 阅读原文（姚顺雨《The Second Half》）：https://www.bestblogs.dev/article/4e45fa → 阅读原文（Karpathy 谈软件 3.0）：https://www.bestblogs.dev/article/c3b1e5 另一个故事更有戏剧性，主角是 Ilya。很多人把他当成扩展路线的奠基者之一，可现在他反过来给这条路踩了刹车。他给行业断代：2012 到 2020 是研究的时代，2020 到 2025 是扩展的时代，而现在「我们又回到了一个拥有巨型计算机的研究时代」。他有句话特别适合接住这一整期的主题：想法是廉价的，执行就是一切，但如果想法这么廉价，为什么没人有想法呢？把他和那些坚信「瓶颈永远是算力」的产业领袖放一起，你会发现，争的已不是要不要算力，而是该往哪个方向投，而这个判断恰恰是机器最替不了的，人的判断。 → 阅读原文（Ilya：从扩展时代到研究时代）：https://www.bestblogs.dev/article/cf49760 最后落到一个更切身的问题：当机器越来越能干，人会不会在把思考外包出去的过程里，把自己也交出去。发出提醒的全是最懂技术的人。微软研究院的实证研究说，过度依赖 AI 会带来认知退化，他们用了个很刺的比喻：我们正在变成自己思想的「中层管理者」，只负责审批，不再亲自思考。iPod 之父 Tony Fadell 也提醒，仅靠几句提示词得到的东西是「软件界的快时尚，用过即溶解」，这其实就是前面工程那章说的认知投降，只是换了个更扎心的说法。还有李继刚那句中文的：工业革命拿走了人的体力，AI 正在拿走人的脑力，而留给人的，是心力。 → 阅读原文（如何避免 AI 扼杀批判性思维）：https://www.bestblogs.dev/article/75cded7 → 阅读原文（孟岩对话李继刚：人何以自处）：https://www.bestblogs.dev/article/17ad4f7 这些话听着有点重，但我们想说清楚，这不是在贩卖焦虑。跑得更快没有错，错的是连方向都一起交出去。 ## 结语一百期一口气看下来，挑几个关键词的话：模型从会回答到能干活，编程里实现变便宜、验证变贵，工程上人把隐性判断写成了文字，Agent 收敛成一套冷静的工程常识，商业从卖工具挪向卖结果，最后，人从给答案转向提问题。这六条线各讲各的，却落到同一句话上：机器越来越会回答，而越是站在最前线的人，越在提醒同一件事，答案正在变得廉价，提对的问题、守住自己的判断、为最后的结果负责，第一次比答案本身更值钱。往前看，有三个悬念我们会接着追：Scaling 这一轮算力该往哪个方向投，Agent 经济里「卖结果」这笔账谁能第一个真正算平，以及人和机器的分工边界到底划在哪。这三个问题这一期都没有答案，因为现在也确实没有人有答案。我们能做的，是把这件还没有答案的事，老老实实交还给你自己去掂量。而这件事本身，可能就是机器暂时还替不了的那一部分。感谢这两年，每一期都在的你。我们下一个 100 期，再见。 ## 附录 · 第 100 期推荐清单（100 篇） > 按六个主题分组，点击「阅读原文」直达 BestBlogs 详情页。带 ⭐ 的是正文重点聊到的篇目。一、模型层与前沿研究 1. ⭐ Claude 4：AI 模型的全新突破　→ https://www.bestblogs.dev/article/657929 1. Claude Sonnet 4.5 正式推出　→ https://www.bestblogs.dev/article/c5766e97 1. ⭐ Claude Fable 5 与 Claude Mythos 5　→ https://www.bestblogs.dev/article/11f30fed 1. 满血版 o1 深夜震撼上线，奥特曼怼脸演示超强推理！终极 Pro 版每月 1450 元　→ https://www.bestblogs.dev/article/5f1b01 1. GPT-5：主要特性、定价和模型卡　→ https://www.bestblogs.dev/article/cf9e79 1. GPT-5.5 发布　→ https://www.bestblogs.dev/article/a6d9083a 1. Gemini 2.5 Flash：应用构建新起点　→ https://www.bestblogs.dev/article/45ad64 1. Genie 3：世界模型的突破　→ https://www.bestblogs.dev/article/953d22 1. Gemini 3.5：具备行动能力的前沿智能　→ https://www.bestblogs.dev/article/226d66a7 1. ⭐ DeepSeek-V3 正式发布　→ https://www.bestblogs.dev/article/ec521c 1. ⭐ DeepSeek-R1 发布，性能对标 OpenAI o1 正式版　→ https://www.bestblogs.dev/article/0be315 1. DeepSeek-V4 预览版：迈入百万上下文普惠时代　→ https://www.bestblogs.dev/article/95d5e07c 1. Qwen3 重磅开源！　→ https://www.bestblogs.dev/article/2601db 1. Qwen3-Coder：480B 参数的超强“代码特工”　→ https://www.bestblogs.dev/article/f28bb0 1. AIME'25 满分炸场！Qwen 一波七连发，全家桶大更新　→ https://www.bestblogs.dev/article/76065c 1. GLM-4.5 发布：面向推理、代码与智能体的开源 SOTA 模型　→ https://www.bestblogs.dev/article/704b17 1. GLM-5.1 开源：支持 8 小时独立工作的长程任务模型　→ https://www.bestblogs.dev/article/a799716e 1. ⭐ MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你　→ https://www.bestblogs.dev/article/46b80e9f 二、AI Coding 与编程智能体 1. ⭐ Claude Code 究竟牛在哪里？（以及如何在你的 AI 智能体中复刻它的魔法！）　→ https://www.bestblogs.dev/article/2ffaa4 1. ⭐ Boris Cherny：我们如何打造 Claude Code　→ https://www.bestblogs.dev/article/f884575 1. Claude Code 自动模式：一种更安全的跳过权限确认方式　→ https://www.bestblogs.dev/article/bf9ab35c 1. ⭐ 2 万行 App 代码，Claude 写了 95%！老开发者：每月只花 200 美元，就像一天多出 5 小时，IDE 要“变天”了！　→ https://www.bestblogs.dev/article/0ad934 1. ⭐ 刚刚，OpenAI 发布 GPT-5-Codex：可独立工作超 7 小时，还能审查、重构大型项目｜机器之心　→ https://www.bestblogs.dev/article/6048ef 1. Codex 与人工智能驱动的编程未来 — OpenAI 播客 Ep. 6　→ https://www.bestblogs.dev/article/7a65159 1. ⭐ 下一场革命：Vibe Engineering｜OpenAI 内部分享　→ https://www.bestblogs.dev/article/12a291a9 1. OpenAI 内部揭秘：我们如何使用 Codex　→ https://www.bestblogs.dev/article/767e0b 1. Cursor 如何将编程智能体推向生产环境　→ https://www.bestblogs.dev/article/f0bf0131 1. 动态上下文发现 (Dynamic Context Discovery)　→ https://www.bestblogs.dev/article/d20bf738 1. 与 Cursor 结对编程的四个月，我大彻大悟了！　→ https://www.bestblogs.dev/article/59ced7 1. 遇见全新的 Cursor · Cursor　→ https://www.bestblogs.dev/article/63cbae4c 1. GitHub Copilot：日处理 4 亿代码补全请求的技术解析　→ https://www.bestblogs.dev/article/932b3c 1. Devin 教你做 Agent：把 AI 当做需要指导的初级开发者　→ https://www.bestblogs.dev/article/abcfa6 1. 当阿里入局全球 AI Coding，战场里的 60 天 | 对话叔同：Qoder 创始人　→ https://www.bestblogs.dev/article/67cc9cc 1. 当整个团队开始 0 人工 Coding：一份万字 AI Native 研发实战手册　→ https://www.bestblogs.dev/article/3be156a2 1. 【第 3592 期】揭秘 Bolt.new 背后的技术　→ https://www.bestblogs.dev/article/547820 1. 自主性就是你需要的一切——米歇尔·卡塔斯塔，Replit　→ https://www.bestblogs.dev/article/705dec8 三、工程范式演进 1. Claude 工程师聊 prompt：不要把模型当小孩子、不需要角色扮演、实话实说　→ https://www.bestblogs.dev/article/13fc2f 1. 程序员的提示工程实战手册　→ https://www.bestblogs.dev/article/539020 1. 这篇超有用！手把手教你搭建 AI 产品 Evals　→ https://www.bestblogs.dev/article/5133ea 1. ⭐ 从上下文工程到 AI Memory，本质上都是在「拟合」人类的认知方式　→ https://www.bestblogs.dev/article/9edea5 1. ⭐ 上下文工程(Context Engineering)　→ https://www.bestblogs.dev/article/195239 1. 深度解读《AI 智能体的上下文工程》：构建高效 Agent 的七个宝贵教训　→ https://www.bestblogs.dev/article/db0a4d 1. 从“数据拼凑”到“精准断案”：深度剖析 RAG 系统中信息完整性的关键作用　→ https://www.bestblogs.dev/article/8a3ca6 1. ⭐ Harness Engineering：耗时一周，我是如何将应用的 AI Coding 率提升至 90%的　→ https://www.bestblogs.dev/article/70e2f298 1. 我们如何在多个产品中约束 Claude　→ https://www.bestblogs.dev/article/ccb45878 1. Harness Engineering：AI 能在真正“出事会炸”的后端系统里写代码吗？　→ https://www.bestblogs.dev/article/e32a066c 1. 挑战 Claude Code？OpenAI Codex 发布月将至，今先揭秘智能体循环　→ https://www.bestblogs.dev/article/37e72b64 1. 从 ReAct 到 Ralph Loop：AI Agent 的持续迭代范式　→ https://www.bestblogs.dev/article/743dcdf3 1. ⭐ 4 亿 token 买来 5 个教训：让 6 个 AI Agent 连写 4 天代码发生了什么？　→ https://www.bestblogs.dev/article/2cbb4f88 四、Agent 架构与工具生态 1. OpenAI: 构建 AI 智能体实用指南　→ https://www.bestblogs.dev/article/551c99 1. 什么是代理？　→ https://www.bestblogs.dev/article/a33256 1. 吴恩达：AI 智能体工作流引领人工智能新趋势 [译]　→ https://www.bestblogs.dev/article/055e79 1. ⭐ 深度解析：Anthropic MCP 协议　→ https://www.bestblogs.dev/article/3ae082 1. ⭐ 别再误会 MCP 了！一篇写给 AI 工程师的硬核“辟谣”指南　→ https://www.bestblogs.dev/article/a5b7a0 1. 七大 MCP 支持的主流 AI 框架大盘点　→ https://www.bestblogs.dev/article/371d34 1. ⭐ MCP 不止工具调用！MCP 联合创建者：绝大多数人用法都太初级！曝 MCP 五大原语、高阶玩法：丰富人机交互体验；MCP 的未来在 Web　→ https://www.bestblogs.dev/article/b6e256 1. 我的研发实践：高准确率 AICoding 工作流设计　→ https://www.bestblogs.dev/article/dfd18b8d 1. 当 AI 智能体学会“欺骗”，我们如何自保？来自火山的 MCP 安全答卷　→ https://www.bestblogs.dev/article/4368dd 1. 构建安全可扩展远程 MCP 服务器指南　→ https://www.bestblogs.dev/article/667606 1. ⭐ 如何以及何时构建多智能体系统　→ https://www.bestblogs.dev/article/cdd786 1. ⭐ 多智能体在「燃烧」Token！Anthropic 公开发现的一切｜机器之心　→ https://www.bestblogs.dev/article/153f9e 1. 阿里云客服 Agent 业务提效实践：灵活可控的落地方法论　→ https://www.bestblogs.dev/article/3e3764 1. ⭐ LangChain CEO 再聊 Agent：chat 模式只是起点，Ambient Agents 才是未来　→ https://www.bestblogs.dev/article/2f1cdf 1. Agent 框架思考指南　→ https://www.bestblogs.dev/article/811b52 1. ⭐ 重塑记忆架构：LLM 正在安装「操作系统」｜机器之心　→ https://www.bestblogs.dev/article/eca51a 1. ⭐ 用于自学习自主 Agents 的 Memory 与 Dreaming　→ https://www.bestblogs.dev/article/8bc3725 五、产品应用与商业落地 1. Notion CEO Ivan Zhao：好的 AI 产品，做到 7.5 分就够了　→ https://www.bestblogs.dev/article/f8231b 1. AI Agent 的「GPT 时刻」，Manus 炸醒整个 AI 圈！　→ https://www.bestblogs.dev/article/031f46 1. #204. Perplexity CEO 揭秘智能体浏览器 Comet 如何重塑未来　→ https://www.bestblogs.dev/article/a838722 1. OpenAI 第三期播客上线：从 ChatGPT 到智能体，AI 如何重新定义职场与科研　→ https://www.bestblogs.dev/article/360922 1. 消费级 AI 应用百强榜 | a16z Show　→ https://www.bestblogs.dev/article/d15471b 1. Gamma 创始人最新分享：30 人即可服务 5000 万用户，AI 时代如何重构新的团队范式？　→ https://www.bestblogs.dev/article/f7a69b 1. ⭐ Token 成本下降，订阅费却飞涨，AI 公司怎么了？｜机器之心　→ https://www.bestblogs.dev/article/083769 1. ⭐ DeepSeek 复盘：128 天后，为什么用户流量一直在下跌？　→ https://www.bestblogs.dev/article/25d067 1. 一年成爆款，狂斩 49.1k Star、200 万下载：Cline 不是开源 Cursor，却更胜一筹？！　→ https://www.bestblogs.dev/article/9955ed 1. 比女皇报告还炸裂！67 页 AI 深度调研刷屏，全球 LLM 大决战真正开始　→ https://www.bestblogs.dev/article/b94eb3 1. 动态计算：我们如何构建无服务器服务器 - Vercel　→ https://www.bestblogs.dev/article/28372b 1. 复盘 2024，大模型的商业化主线是什么？　→ https://www.bestblogs.dev/article/600fc9 1. ⭐ 阿里云 CIO 首次系统复盘：大模型落地的 RIDE 方法论与 RaaS 实践突破　→ https://www.bestblogs.dev/article/80981c 1. ⭐ Block 如何成为全球领先的人工智能驱动型企业 | Dhanji R. Prasanna　→ https://www.bestblogs.dev/article/7fd3a66 1. ⭐ AI Native 时代 —— 研发组织何去何从　→ https://www.bestblogs.dev/article/8c2c877a 1. ⭐ 脉搏：前场部署工程师再度火热　→ https://www.bestblogs.dev/article/2e174723 1. ⭐ 红杉 AI 峰会闭门 6 小时，150 位创始人共识浮现：AI 不再卖工具，而是卖收益　→ https://www.bestblogs.dev/article/1e3156 六、AI 领袖访谈与思想 1. 奥特曼万字访谈：揭秘 GPT-5 幕后艰辛，宣告超级智能前夜已至　→ https://www.bestblogs.dev/article/d1dc03 1. Sam、Jakub 和 Wojciech 谈 OpenAI 的未来，附观众问答　→ https://www.bestblogs.dev/article/cc040a9 1. 关注 AI 必读！Anthropic CEO 万字长文-预测强人工智能的积极未来　→ https://www.bestblogs.dev/article/94f850 1. 智能的未来 | 戴密斯·哈萨比斯（DeepMind 联合创始人兼首席执行官）　→ https://www.bestblogs.dev/article/7d57e33 1. 和杨植麟时隔一年的独家对话：“站在无限的开端”　→ https://www.bestblogs.dev/article/e08d9b 1. 张宏江：我对于 AI 和大模型八点观察和看法 | AI 光年　→ https://www.bestblogs.dev/article/e1362f 1. 李沐重返母校上海交大，从 LLM 聊到个人生涯，这里是演讲全文　→ https://www.bestblogs.dev/article/ae87ad 1. 王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路　→ https://www.bestblogs.dev/article/881364 1. ⭐ 黄仁勋深度访谈：十年时间，我是怎么带领 2.8 万人超越苹果的？　→ https://www.bestblogs.dev/article/11eea2 1. ⭐ Ilya Sutskever – 我们正从扩展时代迈向研究时代　→ https://www.bestblogs.dev/article/cf49760 1. ⭐ GPT-5 被批过度炒作、性能落后，OpenAI 联创揭秘其中原因：我们把它关在 “象牙塔”，和现实世界接触不够　→ https://www.bestblogs.dev/article/c88ed7 1. ⭐ Andrej Karpathy 谈软件 3.0：AI 时代的软件　→ https://www.bestblogs.dev/article/c3b1e5 1. ⭐ The Second Half：一位 OpenAI 科学家的 AI 下半场启示录　→ https://www.bestblogs.dev/article/4e45fa 1. ⭐ 汤道生姚顺雨对谈：腾讯 AI 的下半场　→ https://www.bestblogs.dev/article/1fa6207b 1. ⭐ 如何避免 AI 扼杀你的批判性思维 | 阿德韦特·萨卡尔　→ https://www.bestblogs.dev/article/75cded7 1. ⭐ iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力　→ https://www.bestblogs.dev/article/18391e3 1. ⭐ E45 孟岩对话李继刚：人何以自处　→ https://www.bestblogs.dev/article/17ad4f7 BestBlogs.dev ｜发现真正适合你的高质量内容

译BestBlogs周刊第100期特刊回顾两年AI发展，核心洞察：答案变便宜，判断变贵。模型层：DeepSeek-V3（6700亿参数、每次激活370亿、训练成本约557万美元）和R1（纯强化学习推理开源）将效率与开源变成新范式。AI编程层：Codex案例中模型7小时迭代200轮测试仅改动500行代码，验证成为新瓶颈；Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器，人从写代码退到判断、验证和为结果负责的位置。

ginobefun@hongming731 · 6月21日49

http://x.com/i/article/2068480429980876800 # BestBlogs 早报 · 06-21｜李飞飞预言职场哑铃化，Tokenmaxxing 三月退烧，Claude Code 上下文注入全解析 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。在线阅读本期早报 ## 导语过去三个月，硅谷经历了一场速度罕见的叙事反转。三月，token 消耗量还是验证「AI 超级个体」身份的硬通货——OpenAI 工程师一周烧 2100 亿 token，Claude Code 重度用户一个月能花掉 15 万美元，黄仁勋甚至公开喊话「年薪 50 万的工程师，token 支出低于 25 万就该让人担心」。可不到两个月后，Amazon 关掉了内部 AI 排行榜，Uber 提前烧光了全年 Claude Code 预算开始质疑 ROI，微软计划把 Experiences + Devices 部门的工程师迁回自家工具。今天的精讲二就拆解了这场「Tokenmaxxing 退烧」背后的硬数据：Agentic coding 的真实 token 消耗是普通问答的约一千倍，七成耗在反复试错的「Explore」和「Fix」阶段；写代码效率确实涨了 180%，但传导到真正发布上线时只剩约 30% 的增量——上游烧得越猛，下游瓶颈暴露得越彻底。另一条线索更关心「谁会被这场变化重新分类」。李飞飞与 MasterClass 创始人 David Roger 在精讲一里提出「哑铃效应」：当文本智能的成本逼近零，劳动力会向两端坍缩——一端是审美与技艺不可复制的顶尖工匠，另一端是能调度 AI 完成端到端任务的高能动性通才，中间地带持续萎缩。这个判断和速览里那篇「AI 十倍提效却升不了职」的反思形成了有趣的呼应：交付得越快，反而越容易被钉死在「执行者」的位置上。而精讲三给出的是一份扎实的工程答案——Claude Code 的八种上下文注入机制，到底该怎么分工，才能既不浪费 token，又不让 Agent 在长任务里跑偏。三条主线放在一起看，正好覆盖了这一轮 AI 叙事退烧之后，真正该关心的三个问题：钱花在哪儿了，人该站在哪儿，工程该怎么搭。 ## ★ 精讲一：AI 教母预言：10 年后只剩两种工作者原文链接：AI 教母预言：10 年后只剩两种工作者（Silicon Valley Girl）这场对话的起点是一个被反复滥用的简化论断：「智能的成本正在归零」。李飞飞直接挑战了这个框架——人类能力远比文本和语言丰富得多。她引用的原话是：「体力劳动、认知劳动、情感劳动——人类的活动与人类智能深度交织，而这在自然界仍是一个远未解开的谜题。」大语言模型在逻辑语法、商业智能和代码生成上确实出色，但它们本质上受限于语言、且是有损的。真正的智能需要进化用 5 亿年打磨出的多个维度：感知智能（捕捉环境细节）、空间智能（在三维或四维世界中理解、推理、生成并物理交互）、情感智能（驾驭故事、共同价值与深度共情）。由此引出这场对话最核心的论断——MasterClass 创始人 David Roger 提出的「哑铃效应」：随着文本智能的成本持续下降，企业组织正在经历一次结构性分化。一端是「顶尖 1% 专家」：拥有不可被基线模型模拟的情感与视觉深度的大师级工匠，靠的是精湛技艺与专业判断力；另一端是「高能动性通才」：能部署定制化 AI 层、独立处理复杂端到端任务的多面手，靠的是战略判断与对技术的深度自如。中间地带——那些既不顶尖、也不够通才的岗位——正在持续坍缩。这个结构性转变已经在硅谷的核心岗位上显现：传统上不写代码、负责协调工程团队与市场的产品经理，现在已经在用 AI 工具直接搭建和编写自己的原型，产品生命周期被大幅压缩。教育系统里的采纳差距同样明显。过去六十年的数据证明，一对一的人类教学始终是学习效果的黄金标准，只是过去因为成本太高而无法普及。如今交互式 AI 平台能用极低的成本模拟出这种个性化环境——研究显示，结构化使用 AI 能让学生在少 60% 的时间内掌握同等知识量，而完全禁止使用这些工具的教育系统，可能会让学生落后适应性环境整整十年。李飞飞和 David Roger 都强调，教育的目标绝不能被简化为标准化考试分数或闭卷合规，而应该聚焦于培养能在高度数字化的文明中过上有意义生活的人。对于深陷技术焦虑的从业者——医疗工作者、会计、教育者——正确的应对从来不是回避。历史上的技术范式转移（比如电子表格的出现）反复证明，拒绝适应工具的专业人士会承受严重的经济和系统性代价；反过来，适应工具能解锁一种深刻的自我驱动的创业精神。建立这种自主性，需要从追求结构化、寻求表扬的习惯，转向对风险的高容忍度和直面失败的意愿。李飞飞给非技术背景的人的建议很具体：找一个 25 岁以下的数字原生代，花一个周末坐下来观察他们如何下意识地用这些工具解决真实问题——这比抽象的恐惧更能帮你建立起对技术的真实手感。这篇视频和今天另外两条精讲构成了一个完整的拼图：哑铃效应解释了「人该站在哪个位置」，Tokenmaxxing 退烧解释了「钱为什么没有带来对应的产出」，Claude Code 的上下文注入机制则给出了「想成为高能动性通才，具体该怎么动手」的工程答案。 ## ★ 精讲二：三个月，一场必然失败的 Tokenmaxxing 原文链接：三个月，一场必然失败的 Tokenmaxxing（腾讯科技）纽约时报记者凯文·罗斯在 3 月 20 日最早发现了硅谷开发者中的 Tokenmaxxing（token 利用最大化）现象：OpenAI 工程师一周用掉 2100 亿 token，相当于 33 个维基百科的体量；Claude Code 重度用户一个月能烧 15 万美元。程序员在 X 上开始比拼 token 用量，把它扭曲成一种「AI 超级个体身份」的标识——用得越多，证明你越能驾驭多线程并行工作。4 月，这个概念被互联网公司全面接纳：黄仁勋在 GTC 上喊出「年薪 50 万的工程师 token 支出低于 25 万就该让人担心」，Y Combinator CEO Garry Tan 称自己「tokenmaxxing 的时间比大多数人都长」，迪士尼、Visa、阿里、腾讯、字节都陆续把 token 额度和 AI Coding 工具开放给普通员工。但不到两个月，风向就变了。据《金融时报》5 月 29 日报道，亚马逊关闭了内部 AI 使用排行榜 Kirorank——因为有员工为了刷榜，让 AI agent 去执行毫无实际价值的任务，纯粹堆 token 消耗量。Uber COO Andrew Macdonald 在播客里直言，公司看不到 token 消耗和「更多有用的消费者功能」之间的直接对应关系：Uber 去年底部署 Claude Code 后，95% 的工程师每月都在用、70% 的提交代码来自 AI，但每个工程师每月 500 到 2000 美元的 API 调用费，让公司在 2026 年 4 月就烧光了全年预算。微软同期计划在 6 月底前取消 Experiences + Devices 部门大部分 Claude Code 内部授权，把工程师迁回自家的 GitHub Copilot CLI——本质上是规模化账单已经难以控制。这场退烧背后有三组扎实的研究数据支撑文章的判断。第一组来自谷歌和微软 4 月联合发表的论文《AI Agent 是怎么烧你钱的？》（arXiv 2604.22750）：Agentic coding 的 token 消耗是普通代码问答的约一千倍，而且成本主要来自输入而非输出——钱大多花在模型反复读取上下文上。论文把 Agent 工作拆成五个阶段：Setup（9.98%）、Explore 探索代码与根因（30.37%）、Fix 修改调试（33.53%）、Validate 测试验证（16.59%）、Closeout 收尾（9.53%），其中 Explore 和 Fix 合计占了约三分之二的消耗，而且同一任务不同尝试之间的 token 消耗最高能差出 30 倍——模型自己也算不准该花多少钱。第二组来自哈工大 5 月底的论文，提出「有效反馈计算」（EFC）概念衡量 Agent 行动的真实效率，结果显示在复杂任务中大多数 Harness 的 EFC 转化率低至 0.1——花 100 块钱取证，只有 10 块真正买到了能改变下一步的线索。第三组数据更直接地回应了「写代码变快了，为什么产品还没变多」这个问题：MIT 在 2026 年 5 月发表的《Writing Code vs. Shipping Code》（NBER w35275）分析了 10 万多名 GitHub 开发者的数据，发现自主 coding agent 能让 commits 累计增加约 180%，但这个增量传导到项目数时只剩约 50%，传导到真正的 releases 时只剩约 30%——写代码和交付代码根本不是一回事，上游红利在下游审核、测试、发布、用户采用这些没有同步加速的环节里被大幅稀释了。文章把这一切归结为经济学里早已存在的「生产率悖论」：复杂产品由一组互补要素决定，任何一个要素都能成为瓶颈，只有当数据、流程、人员、评测和责任体系逐渐成熟后，前期的 token 投入才可能开始产生回报。这也呼应了精讲一的哑铃效应——能不能成为「高能动性通才」，恰恰取决于你是否理解这些瓶颈在哪里，而不是单纯比拼调用了多少 Agent。截止六月，几乎所有曾无上限投入 Tokenmaxxing 的公司都已经调整方案，这场应用层 AI Hype 在三个月内基本终结，但文章也提醒，它的失败并非毫无意义——这正是企业为趟出真实瓶颈而必须支付的代价。 ## ★ 精讲三：深入理解 Claude Code：上下文注入机制全解析 ![Claude Code 上下文注入机制对比](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/d734d4b2125caa78.png) 原文链接：深入理解 Claude Code：上下文注入机制全解析（赛博禅心）如果精讲二讲的是「token 为什么被浪费」，这篇文章讲的就是「怎么从工程上少浪费」。文章的出发点很朴素：大模型的工作原理本质就是「塞进去足够的上文，模型就能给出足够好的结果」，而 Agent 和 ChatBot 的核心区别在于「谁来构建上下文」——ChatBot 靠人喂材料，Agent 会自己搜网页、读文档、调工具，把有用的内容写进上下文。正因如此，用工程手段限定 Agent 在哪些步骤能看到哪些东西，就变得格外重要，这正是 CLAUDE.md、Skills、Subagents、Hooks 等一整套上下文注入方法存在的原因。文章按生命周期把这些方法拆解得很清楚。CLAUDE.md 是唯一「全程加载、全程占 token」的方法，适合放 Claude 随时需要知道的「事实」——构建命令、目录结构、团队约定，而不该塞流程性的 30 行清单，因为子目录 CLAUDE.md 只在碰到对应目录时才加载，压缩后会丢失，再次碰到时重新加载。Skills 的设计则聪明得多：启动时只加载名字和描述，几十个 token 的事，完整内容等被调用时才进上下文，用完后如果 token 预算超限，最早调用的 skill 会被踢掉——这是「流程」该待的地方，比如部署清单、发布流程、review checklist。Subagents 则是另起一个独立上下文窗口跑任务，跑完只把摘要交回主会话，从主会话角度看上下文成本几乎为零，特别适合深度搜索、日志分析、依赖审计这类需要大量中间结果但不需要保留的脏活累活。Hooks 是这套体系里最不像 AI 的机制——它是代码，由 harness 在外部确定性执行，完全绕开模型的判断力，覆盖从 PreToolUse 到 SubagentStop 的八种事件，如果某件事绝对不能发生（比如误执行 rm -rf），就该用 Hook 做硬护栏，而不是寄希望于提示词约束。文章特别点出了几个常见误区，对应到的解决方案很直接：「每次 X 必须做 Y」该用 PostToolUse hook 而不是写进 CLAUDE.md；「绝对不要做 Z」该用 PreToolUse hook 的 exit code 2 硬拦截；Rule 没加路径限定就等于全程占 token，跟写进 CLAUDE.md 没区别。这套分工逻辑的本质，是给不同类型的指令匹配不同的生命周期——有的需要全程在场，有的只在特定场景出现，有的用到才加载，有的在独立窗口里跑，有的完全不占上下文。文章最后引出了 Anthropic 最近发布的 Dynamic Workflows（动态工作流）能力：让 Claude 自己写编排脚本，协调多个 Subagent 并行工作，专门用来解决默认 Harness 的三个老问题——「偷懒」（安全审查要查 50 项，查到第 35 项就宣布完成）、「自我偏好」（让 Claude 检查自己写的代码，它倾向于觉得没问题）和「目标漂移」（长会话每次压缩都是有损的，边缘约束容易在压缩中丢失）。Dynamic Workflow 靠独立上下文窗口隔离每个子任务，从结构上消解这三个问题，常见的编排模式包括 Classify-and-act（先分类再分发给专用 Agent）、Fan-out-and-synthesize（拆成 N 个子任务并行后汇总）、Adversarial verification（执行 Agent 配验证 Agent 对抗检查）等六种。这和精讲二里 Nadella 提出的「Token 资本」概念其实是同一枚硬币的两面：真正能沉淀价值的不是烧了多少 token，而是有没有把这些上下文注入方法用对位置——这恰恰是精讲一里「高能动性通才」最具体的工程画像。 ## 速览 [The Factory Model：Coding Agents 如何改变软件工程](https://www.bestblogs.dev/article/43750e7e) ![软件工厂模型抽象层级](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/c6857fd7541456d6.jpg) 谷歌工程师 Addy Osmani 提出「软件工厂模型」：当 Coding Agent 从补全、对话式协作走向长时间自主执行，工程师的工作重心正从「亲手写代码」转向「设计一个能产出软件的系统」。文章把 AI 编码工具分成三代——加速版自动补全、同步式智能体、自主智能体，并强调架构理解、规格说明、测试和判断力并未过时，反而因为会被放大到几十个并行 Agent 上而变得更重要：模糊的 spec 会在规模化执行中被乘法式放大成混乱，而 Red/green TDD 这种老派纪律，在 Agent 工作流里已经接近必需品。这篇文章和精讲三的上下文注入机制是一对很好的搭配——一个讲清楚「为什么规格说明现在比代码本身更值钱」，另一个给出了「怎么用工程手段管住 Agent 不跑偏」。 [AutoJack：单个页面如何让运行 AI 智能体的主机沦陷](https://www.bestblogs.dev/article/9ac31e0e) ![AutoJack 攻击链全流程](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/f93810d70ed98479.webp) Microsoft 安全团队披露了 AutoGen Studio 里的一条利用链 AutoJack：一个具备浏览能力的本地 AI Agent，会被攻击者诱导渲染恶意页面，页面里的 JavaScript 直接向本地 MCP WebSocket 发起连接，绕过 Origin 校验和鉴权中间件，把任意命令当作 MCP 服务器参数执行，最终在开发者账户权限下实现远程代码执行。三个独立的薄弱点——Origin 白名单信任本地却没意识到 Agent 本身就是「本地」、鉴权中间件对 MCP 路径开了后门、URL 参数直接被当作命令行执行——叠加在一起，就构成了完整攻击链。该问题在正式发布前已被修复，pip 安装的版本不受影响，但文章给出的通用教训值得记住：当一个 Agent 既能浏览不可信内容、又能访问本地特权服务时，localhost 就不再是可信边界，必须对每一个控制平面做身份校验和权限隔离。 [让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理](https://www.bestblogs.dev/article/650de739) ![快手开关治理双引擎架构](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/9e7f39a3307b9ce8.jpg) 快手资深架构师闫文亮在 QCon 分享了一套用 AI 治理 Feature Flag 技术债的完整实践。快手短视频主业务每秒调用开关次数高达 155 亿次，早期直接调用大模型批量修改开关代码，正确率只有 70%-80%，会出现误删方法、改反逻辑这类高风险错误。团队随后搭建了「大模型生成 + AST 引擎校验」的双引擎架构：大模型负责处理代码的模糊性，AST 引擎用规则加有向图重新改一遍代码做交叉验证，两者结果一致才算通过，不一致才转人工——这把审核压力从「每次都要人看」变成「只在分歧时才需要人看」。系统进一步引入双 Agent 自进化机制，让 AI 自己分析 Bad Case 该优化 AST 引擎还是检测插件，目前已累计自动下线 1500 个开关、删除六万多行代码，准确率 98% 以上、线上零故障。这套「不确定性探索 + 确定性校验 + 自进化闭环」的范式，本质上是一个可复用的技术债治理框架，也是精讲三「Hook 做确定性护栏」思路在更大规模治理场景下的工程印证。 [智能体技术栈](https://www.bestblogs.dev/article/9e584322) Vercel 发布了 Agent Stack，把构建生产级 Agent 所需的核心能力打包成一套集成构建模块：AI SDK 提供调用任意模型的统一接口，AI Gateway 充当「token 的 CDN」跨数百个模型路由并追踪成本，Workflow SDK 给每一步任务做检查点、保留状态、自动重试。文章的核心诉求很直接——开发者不该被迫在厂商锁定、自己拼接方案、自建抽象层之间三选一。这与精讲二里企业开始把 token 消耗和「可沉淀的企业级 AI 能力资产」挂钩的趋势是同一条逻辑，只是这次给出的是基础设施层的具体落地方案。 [哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人](https://www.bestblogs.dev/article/43f4b5a3) ![黄碧薇谈因果世界模型](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/2897f415ded17e1d.png) Aether AI 创始人黄碧薇刚完成 2000 万美元天使轮融资，她在播客里指出「世界模型」这个 2026 年最热的词，定义其实非常不统一——视频生成、3D 生成、V-JEPA 都被笼统归入这个范畴，但侧重点完全不同。她给出的定义是：世界模型必须理解物理规律和因果关系，能模拟世界如何基于时间或动作从当下状态演变到下一个状态。从马普所到 CMU 再到 UCSD 深耕因果发现 12 年后，她选择把「更合理但更难实现」的因果 AI 路线带进具身智能领域，第一个落地场景就是具身大脑。对正在思考下一代 AI 范式从哪里出现的读者，这是一份扎实的技术路线图。 [使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？](https://www.bestblogs.dev/article/0bcff377) 作者分享了一个相当讽刺的真实经历：靠 AI 把交付速度提到「superhuman pace」，却两次升职失败。他的反思是，自己在老板眼里变成了「手」而不是「脑」——交付太快太可靠，反而被派来越来越零散、方向多变的任务，最终因为说不清楚「过去一年到底做成了什么」而在晋升评审里吃亏。文章用管理学里的「奖赏系统」概念解释了这个陷阱：当 AI 让交付变得极度便宜，组织会不自觉地把更多脏活分配给最好用的人。作者给出的破局思路不是被动响应现有奖赏系统多交付，而是主动管理「交付的摩擦」——判断哪些是真正值得做的事，对不必要的脏活说不。这篇文章和精讲一的哑铃效应是一组很尖锐的对照：能用 AI 十倍提效，未必能让你站上「高能动性通才」那一端，反而可能让你更快地被钉死在「执行者」的位置上。 [40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销](https://www.bestblogs.dev/video/f22c41a) ![Webflow 联合创始人谈 AI 营销](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/df5520faa4b5486e.jpg) Y Combinator 主持人采访了 Webflow 联合创始人 Bryant Cho，他现在在做新项目 Ploy——一个 AI 营销与建站平台。Bryant 认为，拥有十几年行业品味积累、又掌握 AI 工具的资深创始人，现在能单枪匹马做到过去需要大团队才能完成的事：Ploy 内置的 Slurper 引擎能在 75 秒内分析一个现有网站的风格规则，重建出品牌一致的组件系统，而不是输出容易碎片化的标准 AI 模板。他特别强调，驾驭这种「无边界的模型智能」需要相当的专业积累——这正是精讲一里「顶尖工匠」与「高能动性通才」结合体的一个真实案例：经验越深，AI 工具放大出的杠杆越大。 ## 补充阅读 [AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码](https://www.bestblogs.dev/status/2068363092904276316) —— 宝玉系统梳理了把传统软件工程实践（需求分析、系统设计、代码审查、测试、CI/CD、灰度发布）应用到 AI Agent 编程的具体方法论，核心观点是与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 更少发生。适合正在搭建 Agent 编码工作流、想要一份可落地清单的工程师阅读，和精讲三的上下文注入机制可以对照着读。 [关于 AI 编程错误修复与 AGENTS.md 更新的不同意见](https://www.bestblogs.dev/status/2068231396015890449) —— 作者提出一个反直觉的观点：程序错误应该先恢复生产、查找根因，再根据根因选择测试、重构或流程改进，而不是简单粗暴地把所有规则都写进 AGENTS.md。这恰好是精讲三里「CLAUDE.md 不该被塞满流程」原则的另一个视角佐证，适合对照阅读。 [Codex 上线跨设备任务迁移功能 Handoff](https://www.bestblogs.dev/status/2068183780938985827) —— Codex 推出 Handoff 功能，允许用自然语言指令把正在进行的编程任务（含完整 Git 状态）在本地与远程服务器之间无缝迁移。适合关注 Agentic coding 工具链最新进展的读者。 [让 PDF 中的图片可被 RAG 搜索，无需付费读取所有图片](https://www.bestblogs.dev/article/01188342) —— 提出一种成本有序的级联方法，依次用廉价过滤器、类型分类器、传统 OCR 和视觉模型处理 PDF 图片，只对少数值得付费的图片真正调用视觉模型。适合正在搭建企业级 RAG 系统、关心推理成本控制的工程师，思路和精讲二里「token 该花在哪儿」的判断标准相通。 [从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事](https://www.bestblogs.dev/article/109f1dce) —— 通过访谈 Cerebras 早期投资人周楠，回顾百度美研在 2016 年前后对 AI 算力瓶颈的前瞻判断，并探讨当前 AI 投资从非共识到共识窗口急剧缩短的行业变化。适合想了解算力投资历史脉络的读者。 [对话王小川：造医生，战豆包，与无尽的 AI 非共识](https://www.bestblogs.dev/article/2fe94b1c) —— 王小川阐述百川智能聚焦 AI 医疗的战略逻辑：面对豆包等通用模型的冲击，选择以「造 AI 家庭医生」为切入点，在医疗供给端创造新价值，而不在 Coding 等共识赛道内卷。适合关心大模型创业公司差异化战略的读者。 [Microsoft Fabric 中的物化湖视图：当你的 Medallion 架构适配于一条 SELECT 语句时](https://www.bestblogs.dev/article/f6c28015) —— 介绍 Microsoft Fabric 的物化湖视图（MLV）如何把 Notebook、管道和调度简化成声明式 SQL 或 PySpark，自正式发布以来新增了命名调度等能力。适合数据工程团队评估是否要简化现有 Medallion 架构。 [LLM 修格斯迷因比你想象的更诡异](https://www.bestblogs.dev/article/9d82f035) —— 探讨 H.P. 洛夫克拉夫特的修格斯神话与现代 LLM 之间的深层共鸣，认为这个迷因不只是玩笑，更是对「创造缺乏真正理解与价值观、只会盲目模仿的 AI」的一种寓言式警示。适合对 AI 安全叙事感兴趣的读者。 [如何在 Flutter 中正确处理错误：密封类、记录与 Result 类型的实用指南](https://www.bestblogs.dev/article/20d158fe) —— 介绍如何在 Flutter 中用密封类、Result 类型、Dart 3 记录和模式匹配处理错误，主张把错误当作显式的值而非不可见的异常。适合 Flutter 工程师参考。 [LLM 如今已变得复杂](https://www.bestblogs.dev/article/849ac78a) —— 指出现代 LLM 已从简洁的 Transformer 堆栈演变为包含多种注意力变体、MoE 路由和多模态编码器的复杂系统，这与推荐系统的复杂性发展轨迹如出一辙。适合关心模型架构演进脉络的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，先读精讲二《三个月，一场必然失败的 Tokenmaxxing》——它用最扎实的数据解释了过去三个月 AI 应用层叙事为什么集体退烧，是理解当下 AI 投入逻辑的地基；第二，读精讲一《AI 教母预言：10 年后只剩两种工作者》——李飞飞的哑铃效应能帮你判断自己该往「顶尖工匠」还是「高能动性通才」哪个方向走，速览里那篇「AI 十倍提效却升不了职」的反思可以接着读，两篇对照会让判断更具体；第三，如果你是工程师或正在搭建 Agent 工作流，精讲三《深入理解 Claude Code：上下文注入机制全解析》值得完整读完——它把 CLAUDE.md、Skills、Subagents、Hooks 的分工讲得很清楚，是少烧 token、多出活的具体方法。三篇读完，再挑速览里和你工作最相关的一两条补充即可。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译李飞飞与David Roger提出“哑铃效应”：文本智能成本趋零，劳动力向顶尖1%专家和高能动性通才两极坍缩，中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token，Claude Code重度用户月花15万美元；五月迅速退烧——Amazon关闭排行榜，Uber烧光2026年全年预算，微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍，70%耗于探索与修复；写代码效率增180%，但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。

ginobefun@hongming731 · 6月21日42

BestBlogs 早报 · 06-21 # Tokenmaxxing / Claude Code / 李飞飞 / AutoJack / Agent Stack [1] ★ 精讲｜AI 教母预言：10 年后只剩两种工作者 [视频] 李飞飞与 MasterClass 创始人 David Roger 联合提出「哑铃效应」：随着文本智能成本归零，未来劳动力将两极分化——掌握不可复制审美与技艺的顶尖工匠，与能调度 AI 完成端到端任务的高能动性通才，中间地带持续坍缩。她强调，应对技术焦虑的解法不是回避工具，而是主动建立自主性。来源：Silicon Valley Girl https://www.bestblogs.dev/video/b7e175c [2] ★ 精讲｜三个月，一场必然失败的 Tokenmaxxing 硅谷曾以 token 消耗量比拼「超级个体」身份，但 Uber、Amazon、微软相继收紧 Claude Code 预算。文章援引多篇论文指出：Agentic coding 真实成本是普通问答的千倍，且七成消耗在反复试错与无效探索；写代码效率提升 180%，但传导到发布上线的增量仅剩 30%——上下游瓶颈未除，烧 token 注定先于产能释放而崩盘。来源：腾讯科技 https://www.bestblogs.dev/article/8a08f9d4 [3] ★ 精讲｜深入理解 Claude Code：上下文注入机制全解析文章系统梳理 Claude Code 的八种上下文注入机制：CLAUDE.md 全程占用 token 适合放「事实」，Skills 按需加载适合放「流程」，Subagent 独立窗口隔离脏活，Hook 完全绕开模型判断做确定性护栏。最后引出 Dynamic Workflows——让 Claude 自己编排多 Agent 并行干活，解决偷懒、自我偏好与目标漂移三大顽疾。来源：赛博禅心 https://www.bestblogs.dev/article/f3d5f81a [4] The Factory Model：Coding Agents 如何改变软件工程本文提出「软件工厂模型」概念，阐述 Coding Agents 如何将软件工程师的工作重心从亲手写代码转向设计并编排一个能自主产出软件的生产系统，并强调架构理解、规格说明与测试等核心工程能力并未过时，反而更加重要。来源：AINLP https://www.bestblogs.dev/article/43750e7e [5] AutoJack：单个页面如何让运行 AI 智能体的主机沦陷 | Microsoft 安全博客 Microsoft 安全研究人员详细介绍了 AutoJack 利用链，展示了浏览型 AI 智能体如何被诱骗使用本地 MCP WebSocket，从而在运行 AutoGen Studio 的主机上实现远程代码执行。来源：Hacker News - Newest: 「AI Agent」 https://www.bestblogs.dev/article/9ac31e0e [6] 让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理本文复盘快手如何用 AI Agent + AST 双引擎架构，实现 Feature Flag 全生命周期自动化治理，将开关下线准确率提升至 98% 以上并实现线上零故障。来源：InfoQ 中文 https://www.bestblogs.dev/article/650de739 [7] 智能体技术栈 Vercel 推出了 Agent Stack，这是一套集成的构建模块（AI SDK、AI Gateway、Workflow SDK、Sandbox、Connect、Chat SDK）以及 eve 框架，用于构建生产级 AI 智能体。来源：Vercel News https://www.bestblogs.dev/article/9e584322 [8] 哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人 Aether AI 创始人黄碧薇教授深度阐释「因果世界模型」的技术路线，对比视频生成、VLA、WAM 等主流方案，论证因果 AI 才是通往具身智能终局的必经之路。来源：十字路口 Crossing https://www.bestblogs.dev/article/43f4b5a3 [9] 40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销 [视频] Y Combinator 主持人采访 Webflow 联合创始人 Bryant Cho，他认为拥有行业品味与 AI 工具的 40 岁有经验创始人，现在可以超越大型团队——并用新 AI 营销平台 Ploy 现场演示印证这一论点。来源：Y Combinator https://www.bestblogs.dev/video/f22c41a [10] 使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？本文指出，擅长用 AI 提效的员工反而容易陷入「执行者陷阱」——因交付太快而被派更多零散脏活，导致职业发展受阻，并提出了主动管理「奖赏系统」的破局思路。来源：Computing Life https://www.bestblogs.dev/article/0bcff377 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-21

译李飞飞提出“哑铃效应”，未来劳动力两极分化：顶尖工匠与高能动性通才。Tokenmaxxing 揭示，Agentic coding 真实成本是普通问答千倍，七成消耗在试错；写代码效率提升180%，但发布上线增量仅30%。Claude Code 详解八种上下文注入机制，引出 Dynamic Workflows。Microsoft 披露 AutoJack 攻击，浏览型AI Agent 被诱骗利用 MCP WebSocket 在 AutoGen Studio 主机实现代码执行。Vercel 推出 Agent Stack，集成 AI SDK、Gateway、Workflow SDK 等构建生产级 Agent。

AYi@AYi_AInotes · 6月21日68

Greg 列的这张 AI 高价值技能清单，很多人只看了前几个条目，没看穿背后的筛选逻辑现在的AI 正在把单一工具的门槛碾平，纯写 prompt 的能力在贬值，纯撸代码的能力也在贬值，真正开始拉开差距的，全是交界处那些能打通全链路的东西倒不是说写代码不值钱了，是只会写代码不值钱了咱们先看清单里最容易被误读的三项： 1️⃣本地部署模型不是让我们装上多硬核的服务器，关键在于要给自己留一台应急服务器，毕竟云端再丝滑但控制权永远不在你手里， 2️⃣内容策展不意味着做搬运，尤其在AI 内容泛滥的时候，人的筛选和判断反而成了最稀缺的信号 3️⃣长期管理 agent关键在于搭好监控和重试机制，让一群聪明但容易走丢的猫能稳定干活这三个技能都指向同一个方向：builder 和 distributor 中间那个连接点，才是现在个人开发者最值钱的部分就像开小餐馆的老板，既要在后厨掌勺，又要去前厅揽客，菜做得再好没人进店也白搭，能把菜端到客人面前的人，才真正赚得到钱有三件小事可以做， 1. 把你一个核心 agent 工作流从云端迁到本地模型，哪怕只搭一个基础的可观测面板 2. 给你正在做的小产品做一次精准分发，不是广撒网那种，得送到 20 个潜在用户面前， 3. 约一场线下小聚或一对一聊天，收一次不带滤镜的真实反馈

译Greg 列出当下最有价值的六项技能：搭建管理 agent 并运行本地 AI 模型、懂渠道的营销、全能机器人、短内容策展、能出产品又能分发的 builder-distributor、线下社区建设。主推文指出 AI 抹平单一工具门槛，纯写提示词或代码贬值，真正拉开差距的是打通 builder 与 distributor 全链路。具体解读：本地部署保留应急控制权；内容策展是稀缺筛选力；管理 agent 需监控重试。建议三件事：迁核心工作流到本地并搭观测面板；精准分发产品给 20 个潜在用户；线下聊天获真实反馈。

Berryxia.AI@berryxia · 6月21日62

Codex现在能自己把线程从笔记本无缝扔到远程服务器上，关盖子前一说，它就继续干活，等你回来再接回来。你在本地笔记本上开始写代码，工作到一半想走人，或者笔记本要关盖了，直接告诉Codex“把这个线程hand off到我的远程服务器”。它会自动把Git状态、未提交的变更、分支、工作树全打包过去，远程那边继续跑。你关机走人也没关系。等你回来或者换到另一个设备，再让它把线程接回来，本地环境就恢复到离开时的状态，继续本地测试或调试。整个过程不需要你手动sync代码、处理冲突、重建环境。这其实把“本地开发”和“远程重型计算”之间的摩擦抹平了。以前大家要么全在本地（算力不够），要么全在远程（本地测试麻烦），现在可以根据场景自由切换，agent自己管状态流动。以前coding workflow是“人在哪，计算就在哪”。现在越来越接近“任务在哪跑不重要，重要的是context一直在流动，而且agent自己负责搬运”。你觉得这种本地-远程线程无缝handoff，会让更多人开始用远程开发环境吗？

译现在 Codex 能将代码线程从笔记本无缝 handoff 到远程服务器，再随时接回。过程自动打包 Git 状态、未提交变更、分支、工作树等全部上下文，无需手动 sync 或重建环境。该功能消除了本地开发与远程重型计算之间的摩擦，让 agent 自动管理状态流动，用户可根据需要自由切换场景。

AK@_akhaliq · 6月20日44

S-Agent Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

译S-Agent 空间工具使用催生空间智能的推理

X.PIN@thexpin · 6月20日65

WeChat expanded grayscale testing of 小微 (Xiaowei) on June 20 — a conversational assistant built into the main app, run by text or voice. It operates WeChat’s native functions and calls mini programs to complete tasks: ride-hailing, food delivery, hotel booking, package tracking. It can also generate a working mini program from a single prompt. Generated apps are currently single-user and not shareable. Tencent confirmed the rollout.

译微信于6月20日扩大了对小微（Xiaowei）的灰度测试——一个内置在主应用中的对话助手，可通过文本或语音运行。它能操作微信原生功能并调用小程序完成任务：打车、外卖、订酒店、查快递。它还能根据单条提示词生成一个可运行的小程序。生成的应用程序目前为

🚨 AI News | TestingCatalog@testingcatalog · 6月20日37

Anthropic is working on "Schedules" for its upcoming Claude Conway. > Recurrent triggers that wake Conway on a schedule. Survive container restarts. Super excited to see how Conway will work with all these planned features.

译Anthropic正在为其即将推出的Claude Conway开发“Schedules”功能。非常期待看到Conway如何与所有这些计划功能配合工作。

OpenBMB@OpenBMB · 6月20日39

Thanks @aijoey for the impressive vision-agent security monitoring demo with MiniCPM-V 4.6. What stood out to us is the model consistently classifying scenes as 'routine / no emergency'—and that's the essence of security AI. It's not about flagging every person or vehicle, but reading the situation and assessing urgency. Only when police car blue lights appear on the highway does it trigger an alert, with the reasoning: 'There are police car blue lights, indicating a potential emergency situation.' This is exactly what we've been aiming for: vision that doesn't just see, but knows when to act.

译@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo：四个 CCTV 实时画面，模型观察近期帧窗口，判断活动是否正常，仅在识别到真实事件时调用 `raise_alert(reason, severity)`。模型持续将场景分类为“常规/无紧急”，只在高速公路出现警车蓝灯时触发警报，推理为“警车蓝灯亮起，可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。

OpenBMB@OpenBMB · 6月20日50

Huge thanks to @aijoey for building back-office agent swarm with MiniCPM5-1B 👏 This is a fantastic real-world case of scaling small models into production-grade systems——moving beyond “model capability” into “practical multi-agent systems at scale”. We’re especially impressed by the technical setup: 🔷128 concurrent agents on DGX Spark 🔷vLLM continuous batching for serving efficiency 🔷6,604 chunks streamed across agents in just 1.48s 🔷Clear demonstration of how a 1B model can power high-throughput, multi-agent workflows in parallel Really impressive work on the back-office swarm setup and the 128-agent parallelization. Excited to see what else you build with MiniCPM in the future 🚀

译面壁智能OpenBMB感谢@aijoey用MiniCPM5-1B构建后端智能体集群。128个并发智能体在DGX Spark上运行，通过vLLM连续批处理提供服务，每个智能体独立处理发票审核、退款路由、合规检查等8种业务队列。系统在1.48秒内跨智能体流式传输6604个chunks。该案例表明，1B模型的价值在于同时做出大量有用业务决策——用一群小型廉价worker并行清理队列。

meng shao@shao__meng · 6月20日75

开源技术教程「Deep Agents 实战」，LangChain 官方认证大使 @zhanghaili0610 出品，他也是「LangChain 实战」「LangGraph 实战」的作者 https://github.com/datawhalechina/deepagents-in-action 教程的核心是：基于 LangChain / LangGraph 生态，面向开发者讲解如何"用好" Deep Agents 这个 Harness 框架来构建真实应用。核心思想：Agent 开发的"三层架构" 1. Runtime（运行时）：LangGraph，持久化执行、断点恢复、流式输出、人机协作 2. Framework（框架）：LangChain，模型抽象、工具接口、Agent 循环、中间件 3. Harness（套件）：Deep Agents ←本课主角，预置文件系统、任务规划、子 Agent、长期记忆技术内核：上下文工程 Deep Agents 做法：引入虚拟文件系统，让 Agent 像人类一样工作： · 需要时才 read_file 按需读取 · 中间结果 write_file 落盘 · 大文件用 offset/limit 局部读取 · 上下文里只保留当前步骤真正需要的信息 · 这个文件系统还是可插拔的——内存、本地磁盘、数据库、远程沙箱、甚至混合路由，都可作为后端。章节结构（8 章 + 2 准备篇） · 准备篇 ── AgentSeek 环境搭建、开发技能安装 · 认知篇 ── ch01 三层架构 / ch02 5分钟快速上手 · 核心篇 ── ch03 虚拟文件系统 / ch04 任务规划 / ch05 子Agent / ch06 异步子Agent · 进阶篇 ── ch07 Skills / ch08 长期记忆 · 规划中 ── Human-in-the-Loop、沙箱执行、流式前端、数据分析Agent、生产部署四个核心能力的演进脉络值得注意： · 虚拟文件系统（ch03）—— 六大工具：read_file / write_file / edit_file / ls / glob / grep · 任务规划（ch04）—— write_todos 让 Agent 拆解并追踪复杂任务 · 子 Agent 委派（ch05-06）—— task 工具派发子任务，ch06 引入异步并行 · Skills 复用（ch07）—— 遵循开放的 Agent Skills 规范，编写的 Skill 可在 Claude Code、Cursor、Codex 等 30+ 工具中通用（"Skills 之于 AI Agent，就像 npm 包之于 Node.js"）

译LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》，基于 LangChain / LangGraph 生态，讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”：Runtime（LangGraph）、Framework（LangChain）、Harness（Deep Agents）。技术内核为上下文工程，通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇，覆盖虚拟文件系统（六大工具）、任务规划、子 Agent 委派（异步并行）及 Skills 复用（可在 Claude Code、Cursor 等 30+ 工具中通用）。

meng shao@shao__meng · 6月20日51

有密码保护的文档，怎么解析？这在企业 AI Agent 场景，也是一个绕不过去的问题，看看 LandingAI ADE 密码保护文档解析方案，怎么解决它？它支持在同一次请求中完成：解密 → 解析 → 结构化输出。只需在 Parse 或 Parse Jobs 调用里传入 password，无需在本地先解密再上传。前置条件：必须开启 ZDR 该能力仅对已启用 Zero Data Retention（零数据留存）的组织开放。 ZDR 的含义： · 文档仅在内存中处理，不落盘、不持久化 · 处理完成后立即丢弃，不用于模型训练 · 面向 HIPAA、PHI/PII 等合规场景为什么和密码解析绑定？密码本身属于敏感凭证；在 ZDR 模式下，解密与解析在同一受控、无留存链路中完成，降低密码与明文内容被长期存储的风险。支持的格式 · PDF：.pdf · 文本文档：.doc, .docx, .odt · 演示文稿：.ppt, .pptx · 电子表格：.xlsx 工程与安全要点 · 集成成本：单一可选参数，对非加密文件无影响 · 错误处理：缺密码 → 422，需在调用前判断或捕获 · 密码传输：经 HTTPS；ZDR 下服务端不持久化；仍建议最小权限 API Key、审计日志 · 与 ZDR 联动：开启 ZDR 后，单次只能传一个文件；Parse Jobs 须配合 output_save_url

译LandingAI Agentic Document Extraction（ADE）现支持在 Parse 或 Parse Jobs 调用中传入 password 参数，同一请求完成解密、解析及结构化输出。该功能要求启用 Zero Data Retention（ZDR）模式，文档仅在内存处理，不持久化，适用于 HIPAA/PHI/PII 合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。集成成本低：单一可选参数，非加密文件不受影响；缺密码返回 422 错误。密码经 HTTPS 传输，ZDR 下服务端不持久化，建议配合最小权限 API Key 与审计日志。REST API 及 Python/TypeScript 库均可用。