一个开发者花了几个周末，用AI辅助编程做了一个app。它的玩法和Pokemon Go一模一样——只不过你抓的不是虚拟精灵，是真实的猫。打开摄像头，对准路边任何一只猫，拍一张照片。 app会把这只猫变成一幅复古卡通风格的插画，奶油色调，像九十年代的老动画截图。然后这只猫就进了你的图鉴。这个app没有融资，没有团队，没有市场预算。一个人，几行vibe code，一个下午。但它精准地击中了一件事：全世界有六亿只流浪猫，每个人都曾在路上见过一只可爱的猫，然后走开了。这个app让你不再走开。 Pokemon Go用了任天堂三十年的IP积累。这个app只用了一个事实：猫不需要被创造，它们已经在了。

译一位开发者花几个周末用AI辅助编程制作了一款类似Pokemon Go的App，但抓的是真实世界的猫。用户打开摄像头拍路边猫，App会检测照片中是否有真实的猫（防止截屏），然后将猫转化为复古卡通风格插画（奶油色调、粗轮廓），并添加到玩家的图鉴中。每只猫拥有名字、稀有度、等级、状态页和收藏卡，世界地图还能显示附近其他玩家抓到的猫。该App无融资、无团队、无市场预算，利用“全球六亿只流浪猫”这一普遍事实，让玩家不再错过路边的猫。

Rohan Paul@rohanpaul_ai · 6月21日34

Vercel CEO: "Almost shocked" by GLM-5.2's coding ability. My timeline also is full with GLM-5.2 by @Zai_org

译Vercel CEO：“几乎被 GLM-5.2 的编码能力震惊。” 我的时间线也全是 @Zai_org 的 GLM-5.2。

Nathan Lambert@natolambert · 6月21日26

Open weights models, via GLM 5.2, had their "very practically useful" in coding harness moment before Gemini. ~200 days since the release of Opus 4.5.

译开放式权重模型，通过 GLM 5.2，在 Gemini 之前迎来了它们在编码测试中的“非常实用”时刻。自 Opus 4.5 发布以来约 200 天。

向阳乔木@vista8 · 6月21日14

如果搭建一套自用Skill，只需一句话就能开发网站。一觉醒来网站开发好了，很美妙。

Rohan Paul@rohanpaul_ai · 6月21日50

The video where @mntruell ( Michael Truell, co-founder and CEO of Cursor) announced Cursor’s new Composer model at Compile: Cursor now has 10 to 20X more compute than they previously had, allowing them to train this GPT-size model from scratch.

译@mntruell（Michael Truell，Cursor联合创始人兼CEO）在Compile上宣布了Cursor的新Composer模型： Cursor现在的算力是此前的10到20倍，让他们能够从头训练这个GPT规模的模型。

Berryxia.AI@berryxia · 6月21日41

兄弟们，喜大普奔哈哈！ DeepSeek-V4-Flash 免费到6月28号，直接冲啊！ 284B MoE，1M上下文，编码和Agent能力都不错，直接可以用起来，截止日期到6月28号。链接：https://www.openmodel.ai

Chubby♨️@kimmonismus · 6月21日67

Even the Vercel CEO is impressed/shocked at how good GLM-5.2 in coding is. open source, open weights.

译就连 Vercel CEO 都对 GLM-5.2 在编码上的出色表现感到印象深刻/震惊。开源，开放权重。

AYi@AYi_AInotes · 6月21日45

一个自学编程的人，用 Claude Code 破解了3500 年前克里特岛的 Linear A 文字🤯 过去三年我们一直在说 AI 会取代人类专家，Linear A 这个案例恰好反过来了，一个自学工程师用 Claude Code 写了几百行 Python，交叉比对两个公开数据库，输出了一套 408 词的词典，但他从头到尾没让 AI "自己判断"，所有假设都是他提的，AI 只负责跑验证。 Tom 用的方法很朴素：

ginobefun@hongming731 · 6月21日67

http://x.com/i/article/2068589784554250240 # BestBlogs 精选周刊 · 第 100 期特刊｜百篇回顾：两年里，答案变便宜，判断变贵 > 🎧 本期也有播客版本：BestBlogs 周刊第 100 期 · 百篇回顾，约 24 分钟，在小宇宙搜索「BestBlogs 周刊」即可收听。在线阅读和查看所有链接：https://www.bestblogs.dev/newsletter/issue100 ## 导语每周一篇，我们把精选周刊做到了第 100 期，差不多走了两年。借这一期特刊，我们想做件不太一样的事：不聊这一周，聊这两年。先用一句话交代来路。2024 年 3 月，BestBlogs 上线了第一个版本，简单到只有一个页面，背后是一批优质技术社区的订阅源，用大模型做摘要、评分和排序。两个多月后，我们发出第一期精选周刊，从 1000 多篇内容里选了几十篇，发给近 100 位读者。两年下来，这个精选库里攒了 6400 多篇内容，每周发送给近 2 万人。这一期，我们就从这些内容里，回头看一看。如果你和我们一样，过去两年每周都在追 AI，大概会有个感觉：进展是碎的。这周一个模型，下周一个工具，信息量很大，却很难看出门道。但把 100 期连起来看，会浮现出一条相当清晰的线。我们把它总结成一句话：这两年，答案变得越来越便宜，而提对问题、做对判断、为结果负责，第一次比答案更值钱。这条线由内向外分成六层，从最硬的模型内核，一路看到人的位置： - 一、模型层：模型从会回答，到更能完成任务 - 二、AI Coding：第一个被彻底改写的工种 - 三、工程范式：从写提示词，到管理上下文、规则和循环 - 四、Agent：这些方法拼成了可复用的能力 - 五、产品与商业：软件的卖法从卖工具挪向卖结果 - 六、领袖与思想：当机器越来越会回答，人该把精力放在哪这不是一份 AI 编年史。每条线我们只挑一两个最值得讲的故事，把它讲透。完整的 100 篇推荐清单在文末，你可以挑感兴趣的深读。每章末尾，我们也会用一小段，聊聊 BestBlogs 自己在这件事上的对应变化，作为一个一线小项目的注脚。 ## 一、模型层：从会回答，到更能完成任务如果只用一句话概括这两年的模型层，那不是谁的参数更大，而是模型变强所依靠的东西，整个换了一遍。早期模型变强，主要靠堆训练数据；后来这条路走到头，新的增益更多来自让模型在回答前多花算力去推理；再往后，又变成让模型能长时间、分步骤地把一件复杂的事完整做完。三个阶段叠起来，模型就从一个一问一答的知识库，长成了能独立干活的执行器。这个变化里节奏最密、冲击最大的一段，是 2024 年底到 2025 年初 DeepSeek 干的两件事。先是 12 月底的 DeepSeek-V3，6700 多亿参数、每次只激活 370 亿，训练成本据其披露仅约 557 万美元，而同级别一些模型光算力就是它的十倍以上。约三四周后，2025 年 1 月 20 日的 DeepSeek-R1，用纯强化学习跑出对标 OpenAI o1 的推理能力，并以最宽松的协议开源，连思考过程都放出来。这里有个顺序值得点明：是 V3 这个效率基座在前，R1 才站在它上面把推理开源。市场反应比技术圈还激烈，R1 发布一周后，英伟达单日暴跌约 17%，一天蒸发近 6000 亿美元市值。但更值得讲的是它戳破的那个共识：想要前沿能力，你得有万卡集群、烧巨额的钱。DeepSeek 用一个五百多万美元的模型把这个共识捅了个窟窿。Stability AI 前 CEO 当时的调侃流传很广：全天候跑 V3 一天成本也就 2 美元，你是要一杯拿铁，还是一个 AI 助手？清华刘知远的总结最到位：OpenAI 犯了「傲慢之罪」，不开源、不公开、定价又高，把本该属于自己的「ChatGPT 时刻」让给了 DeepSeek。留下来的是效率与开源这条路，它后来基本成了国产大模型的范式，一路延续到今年的 V4。而当时满屏「英伟达完了、算力不再重要」的恐慌，现在反倒没人提了，算力需求一点没少，只是光靠堆资源就能领先的时代结束了。 → 阅读原文（DeepSeek-V3）：https://www.bestblogs.dev/article/ec521c → 阅读原文（DeepSeek-R1）：https://www.bestblogs.dev/article/0be315 如果说 DeepSeek 讲的是模型变便宜，那另一条同样重要的暗线，是模型开始真能干活。给个刻度：2025 年 5 月的 Claude Opus 4，亮点是能在持续数小时的长任务上稳定运行，日本的乐天用它独立跑了 7 小时做代码重构；一年后，2026 年 6 月的 Claude Fable 5，据 Stripe 早期测试披露，用一天时间给一个 5000 万行的代码库做了全库迁移，而这原本是一个团队两个多月的活。从持续数小时到一天干完团队两个月的活，这个刻度一年就翻了好几番。需要说明，这个数字来自 Stripe 自己的报告。 → 阅读原文（Claude Fable 5 与 Mythos 5）：https://www.bestblogs.dev/article/11f30fed BestBlogs 注脚：模型能力是上游，我们这种小项目在下游，水变了最先冲刷到我们。早期处理一篇长文，得先切段再逐段总结，翻译还要走「初译 → 反思 → 改进」三段式，全是为绕开模型短板搭的脚手架。换到更新更便宜的快速模型后，整篇丢进去就能稳稳读完，脚手架一层层删掉，提示词反而越写越短。模型每强一代，所有人为迁就它而堆起的复杂度，就消失一层。 ## 二、AI Coding：实现变便宜，证明代码有效变贵 AI 编程这两年走得很快，从代码补全，到能自己干活的智能体，再到规约驱动。但与其按工具一个个数，我们更想从一个反直觉的故事讲起，因为它正好接着上一章那句话：能力变便宜，意味着什么变贵了。你可能听过「编程智能体能连续干 7 小时」，容易脑补成它一口气写了十万行。但真实情况几乎相反。OpenAI 的 Codex 上有个例子：一位工程师让它跑了 7 小时，期间迭代 200 多轮测试，最后交出的代码改动只有大约 500 行，而且被合并进了主干。那 7 小时绝大部分不是在写代码，是在反复验证这 500 行到底对不对。一句话就能讲透整个时代的切换：代码变得越来越便宜，但证明代码有效这件事，变贵了。OpenAI 的工程师提了个「新的进度单位」：衡量进展不再看写了多少行，而是看错误更少了、代码审查更顺了、对这段代码的信心更足了，哪怕改动很小。这个判断在 Claude Code、Codex、Cursor 三家身上都成立。 → 阅读原文（GPT-5-Codex 发布全解）：https://www.bestblogs.dev/article/6048ef 这一波最早是谁趟出来的？说说 Claude Code 的起源，它有点反差。它不是被规划出来的产品。Anthropic 的工程师 Boris Cherny 最早只是为搞懂自家 API，随手写了个调 API 的小聊天终端，自己都没料到终端会是终点而非起点。还有个细节：他刚加入时第一个代码请求被拒，不是写得差，而是因为那是纯手写的。到今天，据 Anthropic 内部披露，Claude Code 写了内部平均约 80% 的代码，Boris 说自己从去年 11 月起没再手写过一行。它好用的秘密不在模型多强，而在那条朴素到极致的主循环，有团队第一时间逆向它，结论就四个字：大道至简。Boris 还有句话值得记：我们不为今天的模型构建产品，而是为六个月后的模型构建产品。 → 阅读原文（Claude Code 逆向拆解）：https://www.bestblogs.dev/article/2ffaa4 → 阅读原文（Boris Cherny 访谈）：https://www.bestblogs.dev/article/f884575 把这两个故事放一起，它们说的是同一件事：实现一段代码正变成最不值钱的部分，而判断要做什么、验证做得对不对、为结果负责，成了人真正该待的位置。所以这一章留下来的，是验证闭环成了新瓶颈，人正从写代码的人往审代码的人挪；退潮的，是把「能干 7 小时」理解成「能自动写十万行」的神话。顺带提醒，上面那些 80%、90% 多的数字都是各家内部披露，参考可以，别当成行业普遍水平。 BestBlogs 注脚：我们也吃到了这波红利。上一期周刊提过一个彩蛋，我们的世界杯特刊页面，从设计到开发基本是 Claude Fable 5 做的，我们主要是提需求和验收。看着模型给你干活、自己退到审核位置上，那种感觉正好就是这一章讲的事。 ## 三、工程范式：人被逼着把隐性判断写成文字这一章稍微抽象，讲的是我们和模型协作的方法这两年怎么进化。粗线条说，是从调「模型说什么」（提示词），到调「模型看什么」（上下文工程），再到调「模型在什么环境里跑、被什么约束」（Harness），最后到让模型在闭环里自己迭代（循环）。名字不重要，用两个有人物的小故事来讲。第一个故事，是一个词怎么火的。「上下文工程」今天听着像门正经手艺，但它的走红其实是一场命名接力赛。最早把它作为正式术语讲清楚的，是 Cognition 团队的 Walden Yan；真正出圈靠两条推文，先是 Shopify 的 CEO 公开说喜欢这个说法，一周后 Andrej Karpathy 转发加码，说他更喜欢「上下文工程」而非「提示词工程」。Karpathy 给了个好懂的比喻：大模型像中央处理器，上下文窗口是内存，上下文工程就是操作系统级的内存调度。火的是一个词，但真正站住的是它背后那句话：模型已经够聪明，它做不成事，往往不是不够聪明，是你没把对的信息在对的时候喂到它面前。所以「提示工程已死」那种口号很外行，提示工程没死，只是退到了幕后。 → 阅读原文（上下文工程命名史）：https://www.bestblogs.dev/article/9edea5 第二个故事更有画面感，是一次失败。2025 年 5 月，Anthropic 想让 Claude 不是改个 bug，而是从零搭一整个 Web 应用、连续跑好几个小时。他们按当时最好的上下文工程实践搭了第一版，结果全面溃败，暴露出几个典型的坑：想一步到位、编译没过就宣布干完、没做端到端测试就标记完成。这次溃败逼出一个认知：上下文工程管的是信息往哪存、怎么取，但它不管流程，而流程得有人专门管，这一层就是 Harness。HashiCorp 创始人有句话最实在：每次发现 Agent 犯了一个错，你就工程化一个解法，让它永远不可能再犯同样的错。 → 阅读原文（Harness 十五个月进化史）：https://www.bestblogs.dev/article/5b7ab5d5 这条线推到极致，是让模型在循环里自己迭代。OpenAI 一个前沿团队做过相当激进的实验：5 个月、全程零行人工编写的代码、连合并前的人工评审都没有，交付了一个超过 100 万行的内部产品，团队里有人甚至说，一天用不到 10 亿 token 差不多就算失职了。但越是这种数字，越要记住一个词：认知投降。当你把循环当拐杖，不再理解系统在干什么，工程质量会被悄悄侵蚀（这个词我们在最后一章还会再碰到）。所以这一章真正沉淀下来的，不是某个提示技巧，而是一个动作：人被逼着，第一次把过去藏在资深工程师脑子里的隐性判断（什么叫好、什么算对）一条条写成模型和人都能读的文字。演进的其实不是工具，是人对自己那点隐性知识的认知。 ## 四、Agent：真正站住的是一套冷静的工程常识 2024 到 2025 年，Agent 这个词被用到烂大街，套壳聊天机器人也敢叫 Agent。收住这场混乱的，不是某篇雄文，而是一份冷静的官方指南。OpenAI 的《构建 Agent 实用指南》开门见山把界线画死：真正的 Agent 是能让模型自己控制工作流的系统，单步翻译、情感分类都被挡在门外。它最该被记住的是一句反直觉的话：能用确定性的流程图解决的，就别强行上 Agent。一家卖 Agent 工具的公司在劝你少上它卖的东西，分量就在这。后来连衡量方式都变了，吴恩达分享过一组数字：同一个模型直接写代码正确率约 48%，套上能自己迭代、自检的 Agent 流程，能冲到 95%，比换个更强的模型还猛。 → 阅读原文（OpenAI 构建 Agent 实用指南）：https://www.bestblogs.dev/article/551c99 Agent 之间怎么配合，行业里吵过一架。几乎同时，两家很有发言权的公司甩出标题完全相反的两篇文章，一篇《别构建多智能体》，另一篇《我们如何构建多智能体研究系统》。看着像要打起来，却被读出同一个结论：这不是立场之争，是任务形态之争。判据简单到能记一辈子：读的活适合拆开并行，写的活必须留给单体，因为多个 Agent 一起写就会互相打架、产出没法合并。Anthropic 有数据印证，广撒网做调研的任务上，多智能体比单体高了九成多，但代价是一次普通聊天用一份 token，单个 Agent 用四份，多智能体能用到十五份，只有任务足够值钱才划算。 → 阅读原文（何时构建多智能体系统）：https://www.bestblogs.dev/article/cdd786 这一章还有一条线离我们最近，就是 Skills。2025 上半年大家抢着搭 Agent，下半年关键词变成写 Skills。一句话讲明白：Skill 就是 Agent 的一份「入职培训手册」。把领域知识一次写下来，它需要时自己翻、用完就放下，物理形态朴素到一个文件夹加一个说明文件。最巧妙的是渐进式加载：平时只让模型记住技能的名字和一句简介（约 100 token），判断相关了才读完整手册，所以你能装一大堆而不撑爆上下文。它和工具调用协议不冲突，分工很清楚：协议负责让 Agent 连到外部工具，Skill 负责指挥它该怎么调、什么时候调，一个管能力，一个管知识。 → 阅读原文（Datawhale 拆 skill-creator）：https://www.bestblogs.dev/article/352c89c1 → 阅读原文（Skill 与 MCP 的关系）：https://www.bestblogs.dev/article/f02d2b60 所以这一章站住的不是某个炫酷框架，而是一套冷静常识：先问需不需要、能拆就拆、把判断和执行分开；退潮的是「万物皆 Agent、套个壳就叫智能体」的概念膨胀。 BestBlogs 注脚：为什么说 Skills 离我们最近，因为 BestBlogs 整套日常运营，从内容分析、打标、生成早报到做这期播客，背后就是几十个这样的 Skill 在驱动。我们对那句话体会很深：你不是在给人写文档，你是在给模型写指令，读者搞错了，整篇就废了。 ## 五、产品与商业：从卖工具挪向卖结果先从一个被烧穿的套餐讲起。Anthropic 把 Claude Code 做成 200 美元/月、不限量的套餐，这已是抵御成本相当高明的设计：价格提了十倍，按负载自动把任务从最贵的模型降级到便宜的，还把一部分计算卸到用户机器上跑。结果还是被一个用户用一行简单的循环代码烧穿，那个月这人烧掉约 100 亿 token，相当于一个月读了 12500 本《战争与和平》。这件事说明一个反直觉的道理：任何订阅模式下都不存在一个行得通的固定无限价格，这不是没定够高，是物理规律。推理成本确实每年大幅下降，但降的是过期的旧模型，你真正想用的最强能力，永远不便宜。 → 阅读原文（Token 正变得越来越贵）：https://www.bestblogs.dev/article/083769 成本之外，企业把 AI 用起来最难的一步，可能和 AI 本身没关系。讲企业落地最实在的一篇，是阿里云一位 CIO 的复盘：三年里在内部落地 28 个数字人项目，它们在 HR 系统里有工号（以 AI 开头，AI001、AI002），汇报给业务部门，和正式员工一样被对待。但他用两年血泪换来的方法论里，最致命的第一步不是模型，而是重组生产关系，他甚至发现连团队对模型能力边界的认知都对不齐，得先「书同文车同轨」让全员考个 AI 认证。他还有个反焦虑的原则：别拿 AI 跟「神」比、要求 100% 正确，要拿它跟「人」比，只要比人做得更好更准就有意义。类似的话从 Block 的 CTO 嘴里也讲了出来，他管着 4000 名工程师，那句反共识的话是：最有用的改变和 AI 无关，而且很无聊，说的是把按事业部切的架构改成统一职能型，这种组织变革带来的提升超过任何单个 AI 工具。还有美图，一家 17 年的公司逼自己反惯性，据创始人内部分享，整体 AI 编码普及率已达 86%。这几家讲的是同一件事：最大的阻力从来不在模型，在组织和认知。 → 阅读原文（阿里云 28 数字人 · RIDE 方法论）：https://www.bestblogs.dev/article/80981c 把这些串起来，软件的卖法正发生根本挪动，从卖席位、卖工具，挪向卖结果。这一点在第三届红杉 AI 峰会上说得最直白：150 位顶级创始人闭门 6 小时，白板上留下一句话，下一轮 AI，卖的不是工具，而是收益。演进链很清楚：卖工具（你用它）→ 卖协作（它陪你干）→ 卖成果（它替你交付）。红杉由此判断，AI 应用的价值会超越模型本身，赢家不是谁参数多、跑得快，而是谁能把结果交付闭环做完。他们有个形象的说法：你以为 AI 在抢软件那点预算，其实它在进入工资单。峰会也有更激进的预言，比如会出现第一家只有一个人的独角兽，这些更像对未来的展望，听个方向就好，别当成已发生的事实。 → 阅读原文（红杉：卖的不是工具，是收益）：https://www.bestblogs.dev/article/1e3156 BestBlogs 注脚：我们是个特别小的团队，但这两年能把内容分析、早报、周刊、播客这一整套做下来，靠的正是把一件件事交给模型完成。卖结果我们没法替别人下结论，但模型让一个小团队能干以前一个团队才能干的活，这个变化我们实实在在踩在脚下。 ## 六、领袖与思想：答案变廉价，提问变值钱这两年我们读了几十场和 AI 领袖的长访谈，他们吵的问题各不相同（AGI 还有几年、算力往哪堆、软件变成什么），但一旦落到「人该做什么」，答案出奇一致。最有范式宣言气质的，是 OpenAI 科学家姚顺雨的《下半场》。他的判断不是哪年到 AGI，而是规则变了：AI 的下半场会从「解决问题」转向「定义问题」，在这个新阶段，怎么评估一件事做得好不好，比怎么把模型训出来更重要。他还有个扎心的观察，叫「效用问题」：AI 能拿 IMO、IOI 金牌，能力上超过大多数律师，但从整个社会的产出看，世界几乎没怎么变。配着 Karpathy 那句一起读特别有味道：编写代码已不再是一个准确的动词，他现在每天大部分时间是在向他的 Agent 表达自己的意图。写代码的门槛在塌，人的杠杆点整体往上挪了一层。 → 阅读原文（姚顺雨《The Second Half》）：https://www.bestblogs.dev/article/4e45fa → 阅读原文（Karpathy 谈软件 3.0）：https://www.bestblogs.dev/article/c3b1e5 另一个故事更有戏剧性，主角是 Ilya。很多人把他当成扩展路线的奠基者之一，可现在他反过来给这条路踩了刹车。他给行业断代：2012 到 2020 是研究的时代，2020 到 2025 是扩展的时代，而现在「我们又回到了一个拥有巨型计算机的研究时代」。他有句话特别适合接住这一整期的主题：想法是廉价的，执行就是一切，但如果想法这么廉价，为什么没人有想法呢？把他和那些坚信「瓶颈永远是算力」的产业领袖放一起，你会发现，争的已不是要不要算力，而是该往哪个方向投，而这个判断恰恰是机器最替不了的，人的判断。 → 阅读原文（Ilya：从扩展时代到研究时代）：https://www.bestblogs.dev/article/cf49760 最后落到一个更切身的问题：当机器越来越能干，人会不会在把思考外包出去的过程里，把自己也交出去。发出提醒的全是最懂技术的人。微软研究院的实证研究说，过度依赖 AI 会带来认知退化，他们用了个很刺的比喻：我们正在变成自己思想的「中层管理者」，只负责审批，不再亲自思考。iPod 之父 Tony Fadell 也提醒，仅靠几句提示词得到的东西是「软件界的快时尚，用过即溶解」，这其实就是前面工程那章说的认知投降，只是换了个更扎心的说法。还有李继刚那句中文的：工业革命拿走了人的体力，AI 正在拿走人的脑力，而留给人的，是心力。 → 阅读原文（如何避免 AI 扼杀批判性思维）：https://www.bestblogs.dev/article/75cded7 → 阅读原文（孟岩对话李继刚：人何以自处）：https://www.bestblogs.dev/article/17ad4f7 这些话听着有点重，但我们想说清楚，这不是在贩卖焦虑。跑得更快没有错，错的是连方向都一起交出去。 ## 结语一百期一口气看下来，挑几个关键词的话：模型从会回答到能干活，编程里实现变便宜、验证变贵，工程上人把隐性判断写成了文字，Agent 收敛成一套冷静的工程常识，商业从卖工具挪向卖结果，最后，人从给答案转向提问题。这六条线各讲各的，却落到同一句话上：机器越来越会回答，而越是站在最前线的人，越在提醒同一件事，答案正在变得廉价，提对的问题、守住自己的判断、为最后的结果负责，第一次比答案本身更值钱。往前看，有三个悬念我们会接着追：Scaling 这一轮算力该往哪个方向投，Agent 经济里「卖结果」这笔账谁能第一个真正算平，以及人和机器的分工边界到底划在哪。这三个问题这一期都没有答案，因为现在也确实没有人有答案。我们能做的，是把这件还没有答案的事，老老实实交还给你自己去掂量。而这件事本身，可能就是机器暂时还替不了的那一部分。感谢这两年，每一期都在的你。我们下一个 100 期，再见。 ## 附录 · 第 100 期推荐清单（100 篇） > 按六个主题分组，点击「阅读原文」直达 BestBlogs 详情页。带 ⭐ 的是正文重点聊到的篇目。一、模型层与前沿研究 1. ⭐ Claude 4：AI 模型的全新突破　→ https://www.bestblogs.dev/article/657929 1. Claude Sonnet 4.5 正式推出　→ https://www.bestblogs.dev/article/c5766e97 1. ⭐ Claude Fable 5 与 Claude Mythos 5　→ https://www.bestblogs.dev/article/11f30fed 1. 满血版 o1 深夜震撼上线，奥特曼怼脸演示超强推理！终极 Pro 版每月 1450 元　→ https://www.bestblogs.dev/article/5f1b01 1. GPT-5：主要特性、定价和模型卡　→ https://www.bestblogs.dev/article/cf9e79 1. GPT-5.5 发布　→ https://www.bestblogs.dev/article/a6d9083a 1. Gemini 2.5 Flash：应用构建新起点　→ https://www.bestblogs.dev/article/45ad64 1. Genie 3：世界模型的突破　→ https://www.bestblogs.dev/article/953d22 1. Gemini 3.5：具备行动能力的前沿智能　→ https://www.bestblogs.dev/article/226d66a7 1. ⭐ DeepSeek-V3 正式发布　→ https://www.bestblogs.dev/article/ec521c 1. ⭐ DeepSeek-R1 发布，性能对标 OpenAI o1 正式版　→ https://www.bestblogs.dev/article/0be315 1. DeepSeek-V4 预览版：迈入百万上下文普惠时代　→ https://www.bestblogs.dev/article/95d5e07c 1. Qwen3 重磅开源！　→ https://www.bestblogs.dev/article/2601db 1. Qwen3-Coder：480B 参数的超强“代码特工”　→ https://www.bestblogs.dev/article/f28bb0 1. AIME'25 满分炸场！Qwen 一波七连发，全家桶大更新　→ https://www.bestblogs.dev/article/76065c 1. GLM-4.5 发布：面向推理、代码与智能体的开源 SOTA 模型　→ https://www.bestblogs.dev/article/704b17 1. GLM-5.1 开源：支持 8 小时独立工作的长程任务模型　→ https://www.bestblogs.dev/article/a799716e 1. ⭐ MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你　→ https://www.bestblogs.dev/article/46b80e9f 二、AI Coding 与编程智能体 1. ⭐ Claude Code 究竟牛在哪里？（以及如何在你的 AI 智能体中复刻它的魔法！）　→ https://www.bestblogs.dev/article/2ffaa4 1. ⭐ Boris Cherny：我们如何打造 Claude Code　→ https://www.bestblogs.dev/article/f884575 1. Claude Code 自动模式：一种更安全的跳过权限确认方式　→ https://www.bestblogs.dev/article/bf9ab35c 1. ⭐ 2 万行 App 代码，Claude 写了 95%！老开发者：每月只花 200 美元，就像一天多出 5 小时，IDE 要“变天”了！　→ https://www.bestblogs.dev/article/0ad934 1. ⭐ 刚刚，OpenAI 发布 GPT-5-Codex：可独立工作超 7 小时，还能审查、重构大型项目｜机器之心　→ https://www.bestblogs.dev/article/6048ef 1. Codex 与人工智能驱动的编程未来 — OpenAI 播客 Ep. 6　→ https://www.bestblogs.dev/article/7a65159 1. ⭐ 下一场革命：Vibe Engineering｜OpenAI 内部分享　→ https://www.bestblogs.dev/article/12a291a9 1. OpenAI 内部揭秘：我们如何使用 Codex　→ https://www.bestblogs.dev/article/767e0b 1. Cursor 如何将编程智能体推向生产环境　→ https://www.bestblogs.dev/article/f0bf0131 1. 动态上下文发现 (Dynamic Context Discovery)　→ https://www.bestblogs.dev/article/d20bf738 1. 与 Cursor 结对编程的四个月，我大彻大悟了！　→ https://www.bestblogs.dev/article/59ced7 1. 遇见全新的 Cursor · Cursor　→ https://www.bestblogs.dev/article/63cbae4c 1. GitHub Copilot：日处理 4 亿代码补全请求的技术解析　→ https://www.bestblogs.dev/article/932b3c 1. Devin 教你做 Agent：把 AI 当做需要指导的初级开发者　→ https://www.bestblogs.dev/article/abcfa6 1. 当阿里入局全球 AI Coding，战场里的 60 天 | 对话叔同：Qoder 创始人　→ https://www.bestblogs.dev/article/67cc9cc 1. 当整个团队开始 0 人工 Coding：一份万字 AI Native 研发实战手册　→ https://www.bestblogs.dev/article/3be156a2 1. 【第 3592 期】揭秘 Bolt.new 背后的技术　→ https://www.bestblogs.dev/article/547820 1. 自主性就是你需要的一切——米歇尔·卡塔斯塔，Replit　→ https://www.bestblogs.dev/article/705dec8 三、工程范式演进 1. Claude 工程师聊 prompt：不要把模型当小孩子、不需要角色扮演、实话实说　→ https://www.bestblogs.dev/article/13fc2f 1. 程序员的提示工程实战手册　→ https://www.bestblogs.dev/article/539020 1. 这篇超有用！手把手教你搭建 AI 产品 Evals　→ https://www.bestblogs.dev/article/5133ea 1. ⭐ 从上下文工程到 AI Memory，本质上都是在「拟合」人类的认知方式　→ https://www.bestblogs.dev/article/9edea5 1. ⭐ 上下文工程(Context Engineering)　→ https://www.bestblogs.dev/article/195239 1. 深度解读《AI 智能体的上下文工程》：构建高效 Agent 的七个宝贵教训　→ https://www.bestblogs.dev/article/db0a4d 1. 从“数据拼凑”到“精准断案”：深度剖析 RAG 系统中信息完整性的关键作用　→ https://www.bestblogs.dev/article/8a3ca6 1. ⭐ Harness Engineering：耗时一周，我是如何将应用的 AI Coding 率提升至 90%的　→ https://www.bestblogs.dev/article/70e2f298 1. 我们如何在多个产品中约束 Claude　→ https://www.bestblogs.dev/article/ccb45878 1. Harness Engineering：AI 能在真正“出事会炸”的后端系统里写代码吗？　→ https://www.bestblogs.dev/article/e32a066c 1. 挑战 Claude Code？OpenAI Codex 发布月将至，今先揭秘智能体循环　→ https://www.bestblogs.dev/article/37e72b64 1. 从 ReAct 到 Ralph Loop：AI Agent 的持续迭代范式　→ https://www.bestblogs.dev/article/743dcdf3 1. ⭐ 4 亿 token 买来 5 个教训：让 6 个 AI Agent 连写 4 天代码发生了什么？　→ https://www.bestblogs.dev/article/2cbb4f88 四、Agent 架构与工具生态 1. OpenAI: 构建 AI 智能体实用指南　→ https://www.bestblogs.dev/article/551c99 1. 什么是代理？　→ https://www.bestblogs.dev/article/a33256 1. 吴恩达：AI 智能体工作流引领人工智能新趋势 [译]　→ https://www.bestblogs.dev/article/055e79 1. ⭐ 深度解析：Anthropic MCP 协议　→ https://www.bestblogs.dev/article/3ae082 1. ⭐ 别再误会 MCP 了！一篇写给 AI 工程师的硬核“辟谣”指南　→ https://www.bestblogs.dev/article/a5b7a0 1. 七大 MCP 支持的主流 AI 框架大盘点　→ https://www.bestblogs.dev/article/371d34 1. ⭐ MCP 不止工具调用！MCP 联合创建者：绝大多数人用法都太初级！曝 MCP 五大原语、高阶玩法：丰富人机交互体验；MCP 的未来在 Web　→ https://www.bestblogs.dev/article/b6e256 1. 我的研发实践：高准确率 AICoding 工作流设计　→ https://www.bestblogs.dev/article/dfd18b8d 1. 当 AI 智能体学会“欺骗”，我们如何自保？来自火山的 MCP 安全答卷　→ https://www.bestblogs.dev/article/4368dd 1. 构建安全可扩展远程 MCP 服务器指南　→ https://www.bestblogs.dev/article/667606 1. ⭐ 如何以及何时构建多智能体系统　→ https://www.bestblogs.dev/article/cdd786 1. ⭐ 多智能体在「燃烧」Token！Anthropic 公开发现的一切｜机器之心　→ https://www.bestblogs.dev/article/153f9e 1. 阿里云客服 Agent 业务提效实践：灵活可控的落地方法论　→ https://www.bestblogs.dev/article/3e3764 1. ⭐ LangChain CEO 再聊 Agent：chat 模式只是起点，Ambient Agents 才是未来　→ https://www.bestblogs.dev/article/2f1cdf 1. Agent 框架思考指南　→ https://www.bestblogs.dev/article/811b52 1. ⭐ 重塑记忆架构：LLM 正在安装「操作系统」｜机器之心　→ https://www.bestblogs.dev/article/eca51a 1. ⭐ 用于自学习自主 Agents 的 Memory 与 Dreaming　→ https://www.bestblogs.dev/article/8bc3725 五、产品应用与商业落地 1. Notion CEO Ivan Zhao：好的 AI 产品，做到 7.5 分就够了　→ https://www.bestblogs.dev/article/f8231b 1. AI Agent 的「GPT 时刻」，Manus 炸醒整个 AI 圈！　→ https://www.bestblogs.dev/article/031f46 1. #204. Perplexity CEO 揭秘智能体浏览器 Comet 如何重塑未来　→ https://www.bestblogs.dev/article/a838722 1. OpenAI 第三期播客上线：从 ChatGPT 到智能体，AI 如何重新定义职场与科研　→ https://www.bestblogs.dev/article/360922 1. 消费级 AI 应用百强榜 | a16z Show　→ https://www.bestblogs.dev/article/d15471b 1. Gamma 创始人最新分享：30 人即可服务 5000 万用户，AI 时代如何重构新的团队范式？　→ https://www.bestblogs.dev/article/f7a69b 1. ⭐ Token 成本下降，订阅费却飞涨，AI 公司怎么了？｜机器之心　→ https://www.bestblogs.dev/article/083769 1. ⭐ DeepSeek 复盘：128 天后，为什么用户流量一直在下跌？　→ https://www.bestblogs.dev/article/25d067 1. 一年成爆款，狂斩 49.1k Star、200 万下载：Cline 不是开源 Cursor，却更胜一筹？！　→ https://www.bestblogs.dev/article/9955ed 1. 比女皇报告还炸裂！67 页 AI 深度调研刷屏，全球 LLM 大决战真正开始　→ https://www.bestblogs.dev/article/b94eb3 1. 动态计算：我们如何构建无服务器服务器 - Vercel　→ https://www.bestblogs.dev/article/28372b 1. 复盘 2024，大模型的商业化主线是什么？　→ https://www.bestblogs.dev/article/600fc9 1. ⭐ 阿里云 CIO 首次系统复盘：大模型落地的 RIDE 方法论与 RaaS 实践突破　→ https://www.bestblogs.dev/article/80981c 1. ⭐ Block 如何成为全球领先的人工智能驱动型企业 | Dhanji R. Prasanna　→ https://www.bestblogs.dev/article/7fd3a66 1. ⭐ AI Native 时代 —— 研发组织何去何从　→ https://www.bestblogs.dev/article/8c2c877a 1. ⭐ 脉搏：前场部署工程师再度火热　→ https://www.bestblogs.dev/article/2e174723 1. ⭐ 红杉 AI 峰会闭门 6 小时，150 位创始人共识浮现：AI 不再卖工具，而是卖收益　→ https://www.bestblogs.dev/article/1e3156 六、AI 领袖访谈与思想 1. 奥特曼万字访谈：揭秘 GPT-5 幕后艰辛，宣告超级智能前夜已至　→ https://www.bestblogs.dev/article/d1dc03 1. Sam、Jakub 和 Wojciech 谈 OpenAI 的未来，附观众问答　→ https://www.bestblogs.dev/article/cc040a9 1. 关注 AI 必读！Anthropic CEO 万字长文-预测强人工智能的积极未来　→ https://www.bestblogs.dev/article/94f850 1. 智能的未来 | 戴密斯·哈萨比斯（DeepMind 联合创始人兼首席执行官）　→ https://www.bestblogs.dev/article/7d57e33 1. 和杨植麟时隔一年的独家对话：“站在无限的开端”　→ https://www.bestblogs.dev/article/e08d9b 1. 张宏江：我对于 AI 和大模型八点观察和看法 | AI 光年　→ https://www.bestblogs.dev/article/e1362f 1. 李沐重返母校上海交大，从 LLM 聊到个人生涯，这里是演讲全文　→ https://www.bestblogs.dev/article/ae87ad 1. 王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路　→ https://www.bestblogs.dev/article/881364 1. ⭐ 黄仁勋深度访谈：十年时间，我是怎么带领 2.8 万人超越苹果的？　→ https://www.bestblogs.dev/article/11eea2 1. ⭐ Ilya Sutskever – 我们正从扩展时代迈向研究时代　→ https://www.bestblogs.dev/article/cf49760 1. ⭐ GPT-5 被批过度炒作、性能落后，OpenAI 联创揭秘其中原因：我们把它关在 “象牙塔”，和现实世界接触不够　→ https://www.bestblogs.dev/article/c88ed7 1. ⭐ Andrej Karpathy 谈软件 3.0：AI 时代的软件　→ https://www.bestblogs.dev/article/c3b1e5 1. ⭐ The Second Half：一位 OpenAI 科学家的 AI 下半场启示录　→ https://www.bestblogs.dev/article/4e45fa 1. ⭐ 汤道生姚顺雨对谈：腾讯 AI 的下半场　→ https://www.bestblogs.dev/article/1fa6207b 1. ⭐ 如何避免 AI 扼杀你的批判性思维 | 阿德韦特·萨卡尔　→ https://www.bestblogs.dev/article/75cded7 1. ⭐ iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力　→ https://www.bestblogs.dev/article/18391e3 1. ⭐ E45 孟岩对话李继刚：人何以自处　→ https://www.bestblogs.dev/article/17ad4f7 BestBlogs.dev ｜发现真正适合你的高质量内容

译BestBlogs周刊第100期特刊回顾两年AI发展，核心洞察：答案变便宜，判断变贵。模型层：DeepSeek-V3（6700亿参数、每次激活370亿、训练成本约557万美元）和R1（纯强化学习推理开源）将效率与开源变成新范式。AI编程层：Codex案例中模型7小时迭代200轮测试仅改动500行代码，验证成为新瓶颈；Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器，人从写代码退到判断、验证和为结果负责的位置。

Tibo@thsottiaux · 6月21日29

We built the Codex App with models that were okayish at front-end. Wait to see what we can do when we finally improve front-end capabilities significantly in our models. That day will be something.

译我们使用在前端方面还行的模型构建了 Codex App。等着看当我们最终大幅提升模型的前端能力时能做什么吧。那一天会很特别。

OpenClaw🦞@openclaw · 6月21日36

OpenClaw v2026.6.9 is out, with a focus on paper cuts! 💬 Richer Telegram delivery 👏 Steadier agent recovery 🧬 Stronger Codex integration 📦 Slimmer distribution 👌 Improvements in search and skills https://github.com/openclaw/openclaw/releases/tag/v2026.6.9

译OpenClaw v2026.6.9 发布，专注于小修小补！ 💬 更丰富的 Telegram 投递 👏 更稳定的智能体恢复 🧬 更强的 Codex 集成 📦 更精简的分发包 👌 搜索与技能的改进 https://github.com/openclaw/openclaw/releases/tag/v2026.6.9

向阳乔木@vista8 · 6月21日65

牛逼，最近看到的最酷的项目。

译开发者 @zhongerxin 发布开源项目 Cowart，将 OpenAI Codex 与无限画布工具结合，作为 VS Code 插件使用。项目名 Cowart 取自 "Code with Art"。代码已托管至 GitHub：https://github.com/zhongerxin/cowart#

ginobefun@hongming731 · 6月21日49

http://x.com/i/article/2068480429980876800 # BestBlogs 早报 · 06-21｜李飞飞预言职场哑铃化，Tokenmaxxing 三月退烧，Claude Code 上下文注入全解析 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。在线阅读本期早报 ## 导语过去三个月，硅谷经历了一场速度罕见的叙事反转。三月，token 消耗量还是验证「AI 超级个体」身份的硬通货——OpenAI 工程师一周烧 2100 亿 token，Claude Code 重度用户一个月能花掉 15 万美元，黄仁勋甚至公开喊话「年薪 50 万的工程师，token 支出低于 25 万就该让人担心」。可不到两个月后，Amazon 关掉了内部 AI 排行榜，Uber 提前烧光了全年 Claude Code 预算开始质疑 ROI，微软计划把 Experiences + Devices 部门的工程师迁回自家工具。今天的精讲二就拆解了这场「Tokenmaxxing 退烧」背后的硬数据：Agentic coding 的真实 token 消耗是普通问答的约一千倍，七成耗在反复试错的「Explore」和「Fix」阶段；写代码效率确实涨了 180%，但传导到真正发布上线时只剩约 30% 的增量——上游烧得越猛，下游瓶颈暴露得越彻底。另一条线索更关心「谁会被这场变化重新分类」。李飞飞与 MasterClass 创始人 David Roger 在精讲一里提出「哑铃效应」：当文本智能的成本逼近零，劳动力会向两端坍缩——一端是审美与技艺不可复制的顶尖工匠，另一端是能调度 AI 完成端到端任务的高能动性通才，中间地带持续萎缩。这个判断和速览里那篇「AI 十倍提效却升不了职」的反思形成了有趣的呼应：交付得越快，反而越容易被钉死在「执行者」的位置上。而精讲三给出的是一份扎实的工程答案——Claude Code 的八种上下文注入机制，到底该怎么分工，才能既不浪费 token，又不让 Agent 在长任务里跑偏。三条主线放在一起看，正好覆盖了这一轮 AI 叙事退烧之后，真正该关心的三个问题：钱花在哪儿了，人该站在哪儿，工程该怎么搭。 ## ★ 精讲一：AI 教母预言：10 年后只剩两种工作者原文链接：AI 教母预言：10 年后只剩两种工作者（Silicon Valley Girl）这场对话的起点是一个被反复滥用的简化论断：「智能的成本正在归零」。李飞飞直接挑战了这个框架——人类能力远比文本和语言丰富得多。她引用的原话是：「体力劳动、认知劳动、情感劳动——人类的活动与人类智能深度交织，而这在自然界仍是一个远未解开的谜题。」大语言模型在逻辑语法、商业智能和代码生成上确实出色，但它们本质上受限于语言、且是有损的。真正的智能需要进化用 5 亿年打磨出的多个维度：感知智能（捕捉环境细节）、空间智能（在三维或四维世界中理解、推理、生成并物理交互）、情感智能（驾驭故事、共同价值与深度共情）。由此引出这场对话最核心的论断——MasterClass 创始人 David Roger 提出的「哑铃效应」：随着文本智能的成本持续下降，企业组织正在经历一次结构性分化。一端是「顶尖 1% 专家」：拥有不可被基线模型模拟的情感与视觉深度的大师级工匠，靠的是精湛技艺与专业判断力；另一端是「高能动性通才」：能部署定制化 AI 层、独立处理复杂端到端任务的多面手，靠的是战略判断与对技术的深度自如。中间地带——那些既不顶尖、也不够通才的岗位——正在持续坍缩。这个结构性转变已经在硅谷的核心岗位上显现：传统上不写代码、负责协调工程团队与市场的产品经理，现在已经在用 AI 工具直接搭建和编写自己的原型，产品生命周期被大幅压缩。教育系统里的采纳差距同样明显。过去六十年的数据证明，一对一的人类教学始终是学习效果的黄金标准，只是过去因为成本太高而无法普及。如今交互式 AI 平台能用极低的成本模拟出这种个性化环境——研究显示，结构化使用 AI 能让学生在少 60% 的时间内掌握同等知识量，而完全禁止使用这些工具的教育系统，可能会让学生落后适应性环境整整十年。李飞飞和 David Roger 都强调，教育的目标绝不能被简化为标准化考试分数或闭卷合规，而应该聚焦于培养能在高度数字化的文明中过上有意义生活的人。对于深陷技术焦虑的从业者——医疗工作者、会计、教育者——正确的应对从来不是回避。历史上的技术范式转移（比如电子表格的出现）反复证明，拒绝适应工具的专业人士会承受严重的经济和系统性代价；反过来，适应工具能解锁一种深刻的自我驱动的创业精神。建立这种自主性，需要从追求结构化、寻求表扬的习惯，转向对风险的高容忍度和直面失败的意愿。李飞飞给非技术背景的人的建议很具体：找一个 25 岁以下的数字原生代，花一个周末坐下来观察他们如何下意识地用这些工具解决真实问题——这比抽象的恐惧更能帮你建立起对技术的真实手感。这篇视频和今天另外两条精讲构成了一个完整的拼图：哑铃效应解释了「人该站在哪个位置」，Tokenmaxxing 退烧解释了「钱为什么没有带来对应的产出」，Claude Code 的上下文注入机制则给出了「想成为高能动性通才，具体该怎么动手」的工程答案。 ## ★ 精讲二：三个月，一场必然失败的 Tokenmaxxing 原文链接：三个月，一场必然失败的 Tokenmaxxing（腾讯科技）纽约时报记者凯文·罗斯在 3 月 20 日最早发现了硅谷开发者中的 Tokenmaxxing（token 利用最大化）现象：OpenAI 工程师一周用掉 2100 亿 token，相当于 33 个维基百科的体量；Claude Code 重度用户一个月能烧 15 万美元。程序员在 X 上开始比拼 token 用量，把它扭曲成一种「AI 超级个体身份」的标识——用得越多，证明你越能驾驭多线程并行工作。4 月，这个概念被互联网公司全面接纳：黄仁勋在 GTC 上喊出「年薪 50 万的工程师 token 支出低于 25 万就该让人担心」，Y Combinator CEO Garry Tan 称自己「tokenmaxxing 的时间比大多数人都长」，迪士尼、Visa、阿里、腾讯、字节都陆续把 token 额度和 AI Coding 工具开放给普通员工。但不到两个月，风向就变了。据《金融时报》5 月 29 日报道，亚马逊关闭了内部 AI 使用排行榜 Kirorank——因为有员工为了刷榜，让 AI agent 去执行毫无实际价值的任务，纯粹堆 token 消耗量。Uber COO Andrew Macdonald 在播客里直言，公司看不到 token 消耗和「更多有用的消费者功能」之间的直接对应关系：Uber 去年底部署 Claude Code 后，95% 的工程师每月都在用、70% 的提交代码来自 AI，但每个工程师每月 500 到 2000 美元的 API 调用费，让公司在 2026 年 4 月就烧光了全年预算。微软同期计划在 6 月底前取消 Experiences + Devices 部门大部分 Claude Code 内部授权，把工程师迁回自家的 GitHub Copilot CLI——本质上是规模化账单已经难以控制。这场退烧背后有三组扎实的研究数据支撑文章的判断。第一组来自谷歌和微软 4 月联合发表的论文《AI Agent 是怎么烧你钱的？》（arXiv 2604.22750）：Agentic coding 的 token 消耗是普通代码问答的约一千倍，而且成本主要来自输入而非输出——钱大多花在模型反复读取上下文上。论文把 Agent 工作拆成五个阶段：Setup（9.98%）、Explore 探索代码与根因（30.37%）、Fix 修改调试（33.53%）、Validate 测试验证（16.59%）、Closeout 收尾（9.53%），其中 Explore 和 Fix 合计占了约三分之二的消耗，而且同一任务不同尝试之间的 token 消耗最高能差出 30 倍——模型自己也算不准该花多少钱。第二组来自哈工大 5 月底的论文，提出「有效反馈计算」（EFC）概念衡量 Agent 行动的真实效率，结果显示在复杂任务中大多数 Harness 的 EFC 转化率低至 0.1——花 100 块钱取证，只有 10 块真正买到了能改变下一步的线索。第三组数据更直接地回应了「写代码变快了，为什么产品还没变多」这个问题：MIT 在 2026 年 5 月发表的《Writing Code vs. Shipping Code》（NBER w35275）分析了 10 万多名 GitHub 开发者的数据，发现自主 coding agent 能让 commits 累计增加约 180%，但这个增量传导到项目数时只剩约 50%，传导到真正的 releases 时只剩约 30%——写代码和交付代码根本不是一回事，上游红利在下游审核、测试、发布、用户采用这些没有同步加速的环节里被大幅稀释了。文章把这一切归结为经济学里早已存在的「生产率悖论」：复杂产品由一组互补要素决定，任何一个要素都能成为瓶颈，只有当数据、流程、人员、评测和责任体系逐渐成熟后，前期的 token 投入才可能开始产生回报。这也呼应了精讲一的哑铃效应——能不能成为「高能动性通才」，恰恰取决于你是否理解这些瓶颈在哪里，而不是单纯比拼调用了多少 Agent。截止六月，几乎所有曾无上限投入 Tokenmaxxing 的公司都已经调整方案，这场应用层 AI Hype 在三个月内基本终结，但文章也提醒，它的失败并非毫无意义——这正是企业为趟出真实瓶颈而必须支付的代价。 ## ★ 精讲三：深入理解 Claude Code：上下文注入机制全解析 ![Claude Code 上下文注入机制对比](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/d734d4b2125caa78.png) 原文链接：深入理解 Claude Code：上下文注入机制全解析（赛博禅心）如果精讲二讲的是「token 为什么被浪费」，这篇文章讲的就是「怎么从工程上少浪费」。文章的出发点很朴素：大模型的工作原理本质就是「塞进去足够的上文，模型就能给出足够好的结果」，而 Agent 和 ChatBot 的核心区别在于「谁来构建上下文」——ChatBot 靠人喂材料，Agent 会自己搜网页、读文档、调工具，把有用的内容写进上下文。正因如此，用工程手段限定 Agent 在哪些步骤能看到哪些东西，就变得格外重要，这正是 CLAUDE.md、Skills、Subagents、Hooks 等一整套上下文注入方法存在的原因。文章按生命周期把这些方法拆解得很清楚。CLAUDE.md 是唯一「全程加载、全程占 token」的方法，适合放 Claude 随时需要知道的「事实」——构建命令、目录结构、团队约定，而不该塞流程性的 30 行清单，因为子目录 CLAUDE.md 只在碰到对应目录时才加载，压缩后会丢失，再次碰到时重新加载。Skills 的设计则聪明得多：启动时只加载名字和描述，几十个 token 的事，完整内容等被调用时才进上下文，用完后如果 token 预算超限，最早调用的 skill 会被踢掉——这是「流程」该待的地方，比如部署清单、发布流程、review checklist。Subagents 则是另起一个独立上下文窗口跑任务，跑完只把摘要交回主会话，从主会话角度看上下文成本几乎为零，特别适合深度搜索、日志分析、依赖审计这类需要大量中间结果但不需要保留的脏活累活。Hooks 是这套体系里最不像 AI 的机制——它是代码，由 harness 在外部确定性执行，完全绕开模型的判断力，覆盖从 PreToolUse 到 SubagentStop 的八种事件，如果某件事绝对不能发生（比如误执行 rm -rf），就该用 Hook 做硬护栏，而不是寄希望于提示词约束。文章特别点出了几个常见误区，对应到的解决方案很直接：「每次 X 必须做 Y」该用 PostToolUse hook 而不是写进 CLAUDE.md；「绝对不要做 Z」该用 PreToolUse hook 的 exit code 2 硬拦截；Rule 没加路径限定就等于全程占 token，跟写进 CLAUDE.md 没区别。这套分工逻辑的本质，是给不同类型的指令匹配不同的生命周期——有的需要全程在场，有的只在特定场景出现，有的用到才加载，有的在独立窗口里跑，有的完全不占上下文。文章最后引出了 Anthropic 最近发布的 Dynamic Workflows（动态工作流）能力：让 Claude 自己写编排脚本，协调多个 Subagent 并行工作，专门用来解决默认 Harness 的三个老问题——「偷懒」（安全审查要查 50 项，查到第 35 项就宣布完成）、「自我偏好」（让 Claude 检查自己写的代码，它倾向于觉得没问题）和「目标漂移」（长会话每次压缩都是有损的，边缘约束容易在压缩中丢失）。Dynamic Workflow 靠独立上下文窗口隔离每个子任务，从结构上消解这三个问题，常见的编排模式包括 Classify-and-act（先分类再分发给专用 Agent）、Fan-out-and-synthesize（拆成 N 个子任务并行后汇总）、Adversarial verification（执行 Agent 配验证 Agent 对抗检查）等六种。这和精讲二里 Nadella 提出的「Token 资本」概念其实是同一枚硬币的两面：真正能沉淀价值的不是烧了多少 token，而是有没有把这些上下文注入方法用对位置——这恰恰是精讲一里「高能动性通才」最具体的工程画像。 ## 速览 [The Factory Model：Coding Agents 如何改变软件工程](https://www.bestblogs.dev/article/43750e7e) ![软件工厂模型抽象层级](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/c6857fd7541456d6.jpg) 谷歌工程师 Addy Osmani 提出「软件工厂模型」：当 Coding Agent 从补全、对话式协作走向长时间自主执行，工程师的工作重心正从「亲手写代码」转向「设计一个能产出软件的系统」。文章把 AI 编码工具分成三代——加速版自动补全、同步式智能体、自主智能体，并强调架构理解、规格说明、测试和判断力并未过时，反而因为会被放大到几十个并行 Agent 上而变得更重要：模糊的 spec 会在规模化执行中被乘法式放大成混乱，而 Red/green TDD 这种老派纪律，在 Agent 工作流里已经接近必需品。这篇文章和精讲三的上下文注入机制是一对很好的搭配——一个讲清楚「为什么规格说明现在比代码本身更值钱」，另一个给出了「怎么用工程手段管住 Agent 不跑偏」。 [AutoJack：单个页面如何让运行 AI 智能体的主机沦陷](https://www.bestblogs.dev/article/9ac31e0e) ![AutoJack 攻击链全流程](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/f93810d70ed98479.webp) Microsoft 安全团队披露了 AutoGen Studio 里的一条利用链 AutoJack：一个具备浏览能力的本地 AI Agent，会被攻击者诱导渲染恶意页面，页面里的 JavaScript 直接向本地 MCP WebSocket 发起连接，绕过 Origin 校验和鉴权中间件，把任意命令当作 MCP 服务器参数执行，最终在开发者账户权限下实现远程代码执行。三个独立的薄弱点——Origin 白名单信任本地却没意识到 Agent 本身就是「本地」、鉴权中间件对 MCP 路径开了后门、URL 参数直接被当作命令行执行——叠加在一起，就构成了完整攻击链。该问题在正式发布前已被修复，pip 安装的版本不受影响，但文章给出的通用教训值得记住：当一个 Agent 既能浏览不可信内容、又能访问本地特权服务时，localhost 就不再是可信边界，必须对每一个控制平面做身份校验和权限隔离。 [让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理](https://www.bestblogs.dev/article/650de739) ![快手开关治理双引擎架构](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/9e7f39a3307b9ce8.jpg) 快手资深架构师闫文亮在 QCon 分享了一套用 AI 治理 Feature Flag 技术债的完整实践。快手短视频主业务每秒调用开关次数高达 155 亿次，早期直接调用大模型批量修改开关代码，正确率只有 70%-80%，会出现误删方法、改反逻辑这类高风险错误。团队随后搭建了「大模型生成 + AST 引擎校验」的双引擎架构：大模型负责处理代码的模糊性，AST 引擎用规则加有向图重新改一遍代码做交叉验证，两者结果一致才算通过，不一致才转人工——这把审核压力从「每次都要人看」变成「只在分歧时才需要人看」。系统进一步引入双 Agent 自进化机制，让 AI 自己分析 Bad Case 该优化 AST 引擎还是检测插件，目前已累计自动下线 1500 个开关、删除六万多行代码，准确率 98% 以上、线上零故障。这套「不确定性探索 + 确定性校验 + 自进化闭环」的范式，本质上是一个可复用的技术债治理框架，也是精讲三「Hook 做确定性护栏」思路在更大规模治理场景下的工程印证。 [智能体技术栈](https://www.bestblogs.dev/article/9e584322) Vercel 发布了 Agent Stack，把构建生产级 Agent 所需的核心能力打包成一套集成构建模块：AI SDK 提供调用任意模型的统一接口，AI Gateway 充当「token 的 CDN」跨数百个模型路由并追踪成本，Workflow SDK 给每一步任务做检查点、保留状态、自动重试。文章的核心诉求很直接——开发者不该被迫在厂商锁定、自己拼接方案、自建抽象层之间三选一。这与精讲二里企业开始把 token 消耗和「可沉淀的企业级 AI 能力资产」挂钩的趋势是同一条逻辑，只是这次给出的是基础设施层的具体落地方案。 [哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人](https://www.bestblogs.dev/article/43f4b5a3) ![黄碧薇谈因果世界模型](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/2897f415ded17e1d.png) Aether AI 创始人黄碧薇刚完成 2000 万美元天使轮融资，她在播客里指出「世界模型」这个 2026 年最热的词，定义其实非常不统一——视频生成、3D 生成、V-JEPA 都被笼统归入这个范畴，但侧重点完全不同。她给出的定义是：世界模型必须理解物理规律和因果关系，能模拟世界如何基于时间或动作从当下状态演变到下一个状态。从马普所到 CMU 再到 UCSD 深耕因果发现 12 年后，她选择把「更合理但更难实现」的因果 AI 路线带进具身智能领域，第一个落地场景就是具身大脑。对正在思考下一代 AI 范式从哪里出现的读者，这是一份扎实的技术路线图。 [使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？](https://www.bestblogs.dev/article/0bcff377) 作者分享了一个相当讽刺的真实经历：靠 AI 把交付速度提到「superhuman pace」，却两次升职失败。他的反思是，自己在老板眼里变成了「手」而不是「脑」——交付太快太可靠，反而被派来越来越零散、方向多变的任务，最终因为说不清楚「过去一年到底做成了什么」而在晋升评审里吃亏。文章用管理学里的「奖赏系统」概念解释了这个陷阱：当 AI 让交付变得极度便宜，组织会不自觉地把更多脏活分配给最好用的人。作者给出的破局思路不是被动响应现有奖赏系统多交付，而是主动管理「交付的摩擦」——判断哪些是真正值得做的事，对不必要的脏活说不。这篇文章和精讲一的哑铃效应是一组很尖锐的对照：能用 AI 十倍提效，未必能让你站上「高能动性通才」那一端，反而可能让你更快地被钉死在「执行者」的位置上。 [40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销](https://www.bestblogs.dev/video/f22c41a) ![Webflow 联合创始人谈 AI 营销](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/df5520faa4b5486e.jpg) Y Combinator 主持人采访了 Webflow 联合创始人 Bryant Cho，他现在在做新项目 Ploy——一个 AI 营销与建站平台。Bryant 认为，拥有十几年行业品味积累、又掌握 AI 工具的资深创始人，现在能单枪匹马做到过去需要大团队才能完成的事：Ploy 内置的 Slurper 引擎能在 75 秒内分析一个现有网站的风格规则，重建出品牌一致的组件系统，而不是输出容易碎片化的标准 AI 模板。他特别强调，驾驭这种「无边界的模型智能」需要相当的专业积累——这正是精讲一里「顶尖工匠」与「高能动性通才」结合体的一个真实案例：经验越深，AI 工具放大出的杠杆越大。 ## 补充阅读 [AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码](https://www.bestblogs.dev/status/2068363092904276316) —— 宝玉系统梳理了把传统软件工程实践（需求分析、系统设计、代码审查、测试、CI/CD、灰度发布）应用到 AI Agent 编程的具体方法论，核心观点是与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 更少发生。适合正在搭建 Agent 编码工作流、想要一份可落地清单的工程师阅读，和精讲三的上下文注入机制可以对照着读。 [关于 AI 编程错误修复与 AGENTS.md 更新的不同意见](https://www.bestblogs.dev/status/2068231396015890449) —— 作者提出一个反直觉的观点：程序错误应该先恢复生产、查找根因，再根据根因选择测试、重构或流程改进，而不是简单粗暴地把所有规则都写进 AGENTS.md。这恰好是精讲三里「CLAUDE.md 不该被塞满流程」原则的另一个视角佐证，适合对照阅读。 [Codex 上线跨设备任务迁移功能 Handoff](https://www.bestblogs.dev/status/2068183780938985827) —— Codex 推出 Handoff 功能，允许用自然语言指令把正在进行的编程任务（含完整 Git 状态）在本地与远程服务器之间无缝迁移。适合关注 Agentic coding 工具链最新进展的读者。 [让 PDF 中的图片可被 RAG 搜索，无需付费读取所有图片](https://www.bestblogs.dev/article/01188342) —— 提出一种成本有序的级联方法，依次用廉价过滤器、类型分类器、传统 OCR 和视觉模型处理 PDF 图片，只对少数值得付费的图片真正调用视觉模型。适合正在搭建企业级 RAG 系统、关心推理成本控制的工程师，思路和精讲二里「token 该花在哪儿」的判断标准相通。 [从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事](https://www.bestblogs.dev/article/109f1dce) —— 通过访谈 Cerebras 早期投资人周楠，回顾百度美研在 2016 年前后对 AI 算力瓶颈的前瞻判断，并探讨当前 AI 投资从非共识到共识窗口急剧缩短的行业变化。适合想了解算力投资历史脉络的读者。 [对话王小川：造医生，战豆包，与无尽的 AI 非共识](https://www.bestblogs.dev/article/2fe94b1c) —— 王小川阐述百川智能聚焦 AI 医疗的战略逻辑：面对豆包等通用模型的冲击，选择以「造 AI 家庭医生」为切入点，在医疗供给端创造新价值，而不在 Coding 等共识赛道内卷。适合关心大模型创业公司差异化战略的读者。 [Microsoft Fabric 中的物化湖视图：当你的 Medallion 架构适配于一条 SELECT 语句时](https://www.bestblogs.dev/article/f6c28015) —— 介绍 Microsoft Fabric 的物化湖视图（MLV）如何把 Notebook、管道和调度简化成声明式 SQL 或 PySpark，自正式发布以来新增了命名调度等能力。适合数据工程团队评估是否要简化现有 Medallion 架构。 [LLM 修格斯迷因比你想象的更诡异](https://www.bestblogs.dev/article/9d82f035) —— 探讨 H.P. 洛夫克拉夫特的修格斯神话与现代 LLM 之间的深层共鸣，认为这个迷因不只是玩笑，更是对「创造缺乏真正理解与价值观、只会盲目模仿的 AI」的一种寓言式警示。适合对 AI 安全叙事感兴趣的读者。 [如何在 Flutter 中正确处理错误：密封类、记录与 Result 类型的实用指南](https://www.bestblogs.dev/article/20d158fe) —— 介绍如何在 Flutter 中用密封类、Result 类型、Dart 3 记录和模式匹配处理错误，主张把错误当作显式的值而非不可见的异常。适合 Flutter 工程师参考。 [LLM 如今已变得复杂](https://www.bestblogs.dev/article/849ac78a) —— 指出现代 LLM 已从简洁的 Transformer 堆栈演变为包含多种注意力变体、MoE 路由和多模态编码器的复杂系统，这与推荐系统的复杂性发展轨迹如出一辙。适合关心模型架构演进脉络的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，先读精讲二《三个月，一场必然失败的 Tokenmaxxing》——它用最扎实的数据解释了过去三个月 AI 应用层叙事为什么集体退烧，是理解当下 AI 投入逻辑的地基；第二，读精讲一《AI 教母预言：10 年后只剩两种工作者》——李飞飞的哑铃效应能帮你判断自己该往「顶尖工匠」还是「高能动性通才」哪个方向走，速览里那篇「AI 十倍提效却升不了职」的反思可以接着读，两篇对照会让判断更具体；第三，如果你是工程师或正在搭建 Agent 工作流，精讲三《深入理解 Claude Code：上下文注入机制全解析》值得完整读完——它把 CLAUDE.md、Skills、Subagents、Hooks 的分工讲得很清楚，是少烧 token、多出活的具体方法。三篇读完，再挑速览里和你工作最相关的一两条补充即可。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译李飞飞与David Roger提出“哑铃效应”：文本智能成本趋零，劳动力向顶尖1%专家和高能动性通才两极坍缩，中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token，Claude Code重度用户月花15万美元；五月迅速退烧——Amazon关闭排行榜，Uber烧光2026年全年预算，微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍，70%耗于探索与修复；写代码效率增180%，但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。

ginobefun@hongming731 · 6月21日42

BestBlogs 早报 · 06-21 # Tokenmaxxing / Claude Code / 李飞飞 / AutoJack / Agent Stack [1] ★ 精讲｜AI 教母预言：10 年后只剩两种工作者 [视频] 李飞飞与 MasterClass 创始人 David Roger 联合提出「哑铃效应」：随着文本智能成本归零，未来劳动力将两极分化——掌握不可复制审美与技艺的顶尖工匠，与能调度 AI 完成端到端任务的高能动性通才，中间地带持续坍缩。她强调，应对技术焦虑的解法不是回避工具，而是主动建立自主性。来源：Silicon Valley Girl https://www.bestblogs.dev/video/b7e175c [2] ★ 精讲｜三个月，一场必然失败的 Tokenmaxxing 硅谷曾以 token 消耗量比拼「超级个体」身份，但 Uber、Amazon、微软相继收紧 Claude Code 预算。文章援引多篇论文指出：Agentic coding 真实成本是普通问答的千倍，且七成消耗在反复试错与无效探索；写代码效率提升 180%，但传导到发布上线的增量仅剩 30%——上下游瓶颈未除，烧 token 注定先于产能释放而崩盘。来源：腾讯科技 https://www.bestblogs.dev/article/8a08f9d4 [3] ★ 精讲｜深入理解 Claude Code：上下文注入机制全解析文章系统梳理 Claude Code 的八种上下文注入机制：CLAUDE.md 全程占用 token 适合放「事实」，Skills 按需加载适合放「流程」，Subagent 独立窗口隔离脏活，Hook 完全绕开模型判断做确定性护栏。最后引出 Dynamic Workflows——让 Claude 自己编排多 Agent 并行干活，解决偷懒、自我偏好与目标漂移三大顽疾。来源：赛博禅心 https://www.bestblogs.dev/article/f3d5f81a [4] The Factory Model：Coding Agents 如何改变软件工程本文提出「软件工厂模型」概念，阐述 Coding Agents 如何将软件工程师的工作重心从亲手写代码转向设计并编排一个能自主产出软件的生产系统，并强调架构理解、规格说明与测试等核心工程能力并未过时，反而更加重要。来源：AINLP https://www.bestblogs.dev/article/43750e7e [5] AutoJack：单个页面如何让运行 AI 智能体的主机沦陷 | Microsoft 安全博客 Microsoft 安全研究人员详细介绍了 AutoJack 利用链，展示了浏览型 AI 智能体如何被诱骗使用本地 MCP WebSocket，从而在运行 AutoGen Studio 的主机上实现远程代码执行。来源：Hacker News - Newest: 「AI Agent」 https://www.bestblogs.dev/article/9ac31e0e [6] 让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理本文复盘快手如何用 AI Agent + AST 双引擎架构，实现 Feature Flag 全生命周期自动化治理，将开关下线准确率提升至 98% 以上并实现线上零故障。来源：InfoQ 中文 https://www.bestblogs.dev/article/650de739 [7] 智能体技术栈 Vercel 推出了 Agent Stack，这是一套集成的构建模块（AI SDK、AI Gateway、Workflow SDK、Sandbox、Connect、Chat SDK）以及 eve 框架，用于构建生产级 AI 智能体。来源：Vercel News https://www.bestblogs.dev/article/9e584322 [8] 哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人 Aether AI 创始人黄碧薇教授深度阐释「因果世界模型」的技术路线，对比视频生成、VLA、WAM 等主流方案，论证因果 AI 才是通往具身智能终局的必经之路。来源：十字路口 Crossing https://www.bestblogs.dev/article/43f4b5a3 [9] 40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销 [视频] Y Combinator 主持人采访 Webflow 联合创始人 Bryant Cho，他认为拥有行业品味与 AI 工具的 40 岁有经验创始人，现在可以超越大型团队——并用新 AI 营销平台 Ploy 现场演示印证这一论点。来源：Y Combinator https://www.bestblogs.dev/video/f22c41a [10] 使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？本文指出，擅长用 AI 提效的员工反而容易陷入「执行者陷阱」——因交付太快而被派更多零散脏活，导致职业发展受阻，并提出了主动管理「奖赏系统」的破局思路。来源：Computing Life https://www.bestblogs.dev/article/0bcff377 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-21

译李飞飞提出“哑铃效应”，未来劳动力两极分化：顶尖工匠与高能动性通才。Tokenmaxxing 揭示，Agentic coding 真实成本是普通问答千倍，七成消耗在试错；写代码效率提升180%，但发布上线增量仅30%。Claude Code 详解八种上下文注入机制，引出 Dynamic Workflows。Microsoft 披露 AutoJack 攻击，浏览型AI Agent 被诱骗利用 MCP WebSocket 在 AutoGen Studio 主机实现代码执行。Vercel 推出 Agent Stack，集成 AI SDK、Gateway、Workflow SDK 等构建生产级 Agent。

jason@jxnlco · 6月21日30

LETS GOOO

译OpenAI 正在将城市中的 ChatGPT 广告牌更换为 Codex 广告牌。主推文：冲啊！

Tibo@thsottiaux · 6月21日15

Some tokens work harder than others. Some of the most valuable ones are found in the Codex app.

译有些 token 比其他 token 更努力。最有价值的那些出现在 Codex 应用中。

Berryxia.AI@berryxia · 6月21日62

Codex现在能自己把线程从笔记本无缝扔到远程服务器上，关盖子前一说，它就继续干活，等你回来再接回来。你在本地笔记本上开始写代码，工作到一半想走人，或者笔记本要关盖了，直接告诉Codex“把这个线程hand off到我的远程服务器”。它会自动把Git状态、未提交的变更、分支、工作树全打包过去，远程那边继续跑。你关机走人也没关系。等你回来或者换到另一个设备，再让它把线程接回来，本地环境就恢复到离开时的状态，继续本地测试或调试。整个过程不需要你手动sync代码、处理冲突、重建环境。这其实把“本地开发”和“远程重型计算”之间的摩擦抹平了。以前大家要么全在本地（算力不够），要么全在远程（本地测试麻烦），现在可以根据场景自由切换，agent自己管状态流动。以前coding workflow是“人在哪，计算就在哪”。现在越来越接近“任务在哪跑不重要，重要的是context一直在流动，而且agent自己负责搬运”。你觉得这种本地-远程线程无缝handoff，会让更多人开始用远程开发环境吗？

译现在 Codex 能将代码线程从笔记本无缝 handoff 到远程服务器，再随时接回。过程自动打包 Git 状态、未提交变更、分支、工作树等全部上下文，无需手动 sync 或重建环境。该功能消除了本地开发与远程重型计算之间的摩擦，让 agent 自动管理状态流动，用户可根据需要自由切换场景。

jason@jxnlco · 6月21日9

Someone connect this to codex @Dimillian

译可以用 Steam Controller 完成此操作。主推文呼吁有人将此事与 codex 联系起来 @Dimillian。

OpenCode@opencode · 6月20日48

GLM 5.2 is a hit been out for 3 days and it's already 6th on our leaderboard

译GLM 5.2 大受欢迎已发布 3 天，便在我们榜单上排到第 6 名

Berryxia.AI@berryxia · 6月20日53

这不是直接掀桌子啊！搞起来啊，有点舒服啊！

译这不是直接掀桌子啊！搞起来啊，有点舒服啊！ Codex 与 Excalidraw 结合，实现原生无线画布，无需额外插件。

Chubby♨️@kimmonismus · 6月20日68

Really looking forward to GPT-5.6. one shorting a „The Sims“-Simulation without any harness is nuts.

译非常期待 GPT-5.6。无需任何辅助框架，一次性生成《模拟人生》模拟，太疯狂了。

Deedy@deedydas · 6月20日46

Most software engineers are facing an identity crisis bordering on depression. As CTOs aggressively evangelize tokenmaxxing, a class divide ensues. The lazy. The lazy push code. They don't write it. They don't manually test it. They don't even read it. They're on autopilot. See Jira ticket, prompt for task, submit code. Many of them are barely on their computer the whole day. A comment on the PR asking why they did this? The lazy ask AI. A Slack message? The lazy ask AI. Need to prepare for standup? The lazy ask AI. As long as it sounds enough like them and isn't detected. Some of the lazy are even overemployed, and work multiple jobs. The lazy smart ones get away with this, and even rewarded. After all, software engineering for the lazy is just a dance to convince your colleagues you're smart and hard working. The craftsmen. The craftsmen are tired. Very tired. 15 PRs in queue. Slack blowing up. The entire burden of review falls on the craftsman. The burden of understanding. They try. They work their way through the code, thoughtfully commenting to improve what ships. The response? A lazy: "That's a clever idea! You're absolutely right." with an incorrect change. It's fine, the craftsman says. I can fix them. They write a doc urging his colleagues to be better. The next day? 20,000 line PR to review. Day after day, their workload grows. Bugs seep into production. No one seems to care. Another round of AI is thrown at it. Their animosity to their colleagues rises. Eventually, they give up. It's just not what it used to be. The craft they loved is dead. They eventually wake up, a lazy. This isn't all companies. Many companies are genuinely more productive, adopt the right set of principles and practices around AI development and have highly talented teams that trust each other. It tends to happen in bigger companies that are 10+yrs old with a higher talent variance. But it happens. A lot.

译Deedy Das观察到，随着CTO们极力推崇tokenmaxxing，软件工程师分裂为“懒惰者”与“工匠者”。懒惰者依赖AI代写代码、测试、回复消息，甚至同时胜任多份工作；工匠者则疲于审查堆积如山的PR和Slack消息，同事的AI代码敷衍了事，最终工匠者也放弃沦为懒惰者。这种现象常见于成立超10年的大公司，但并非所有公司如此——部分团队凭借合理的AI开发原则和互信机制仍保持高效。

宝玉@dotey · 6月20日60

一点不同意见。如果是程序发生了错误，那首先这是代码问题，代码问题不一定是 Codex 的锅。你让它再怎么改 AGENTS.md，也不见得下次就不会犯同样的错误。从软件工程的角度来说，通常处理错误的顺序是这样的： 1）恢复生产先恢复再找原因，尤其是线上紧急问题。要么回滚要么打补丁，先把生产恢复了再说。但也要注意保留日志和现场，方便后续追查。 2）找根因错误发生了，找 Root Cause 是必须的。到底是逻辑错误、边界条件没处理、还是对需求理解有偏差？不同的根因，对应不同的解法。 3）避免再次发生这一步当然没问题，但怎么做有讲究，不是一句更新 AGENTS.md 就能解决所有情况的。比如边界条件没覆盖，那就加测试用例；代码架构有缺陷，那就重构；Code Review 流程有漏洞，那就改进 review 流程。具体怎么做，要根据根因来定。那什么情况下才应该更新 AGENTS.md？当错误的根因是 AI 对项目特有的约定或上下文缺乏了解的时候。比如项目有特定的命名规范或目录结构约定，代码里看不出来；比如某些 API 有隐含的使用限制，文档里没写清楚；比如团队有特殊的测试规范或提交规范。这些属于项目知识，写进 AGENTS.md 是合理的。但如果一个 bug 应该靠测试来防，那就写测试；应该靠 Code Review 来防，那就改流程。把什么都往 AGENTS.md 里塞，反而会让它变得大而无用还占 Token，规则越多越不精准，AI 反而更容易忽略真正重要的那几条。

译宝玉认为处理错误应先恢复生产（回滚或打补丁，保留日志），再找根因（逻辑错误、边界条件、需求理解偏差），最后根据根因决定如何避免。仅当根因是AI对项目特有约定缺乏了解时（如命名规范、API隐含限制、团队测试规范），才应更新AGENTS.md。其他情况应分别用新增测试用例、重构架构、改进Code Review等方式解决。将一切塞入AGENTS.md会导致文件臃肿、规则繁多，AI反而忽略关键规则。

宝玉@dotey · 6月20日57

Codex 上线了一个跨设备任务迁移功能，叫 Handoff。你在笔记本上用 Codex 写代码写到一半，合上盖子之前，可以把正在进行的任务连同代码状态一起迁移到远程服务器上继续跑。回到家了，再把任务拉回来。这个功能有两个有意思的地方。第一，迁移操作不是在界面上点按钮，而是直接在聊天框里用自然语言下指令。比如你可以说： “我要离开办公室了，把我正在跑的线程迁移到远程主机上，确保它们在那边正常运行。” Codex 会自动帮你完成整个迁移流程。第二，迁移的不只是对话记录，而是完整的 Git 状态。你本地没提交的代码改动、当前所在的分支，都会跟着一起过去。到了远程机器上，代码接着你离开的那个位置继续。不过用起来有几个前提条件。首先你得在 Codex 的 Settings > Connections > SSH 里配置好远程主机连接，远程机器上也要装好 Codex 并开启“允许其他设备连接”，两边还得登录同一个 ChatGPT 账号。然后远程主机上要有同一个 Git 仓库的克隆，并在 Codex 里把它保存成项目。如果你本地打开的是仓库的某个子目录，远程那边也得保存同样的子目录路径，不然 Codex 找不到匹配的迁移目标。远程机器还得能访问同一个 Git 远程仓库，私有仓库的话需要提前配好 SSH key 或 GitHub 认证。我觉得这还是太麻烦了一点，不如办公室或者家里有台电脑常年开着方便。当然对于重度使用 AI 编程工具的开发者来说，这个功能解决了一个很实际的问题：AI 帮你改代码改到一半，你得走了，之前只能等它跑完或者放弃进度。现在可以把任务托管到云端服务器上，通勤路上它继续干活，你到家了再接手看结果。

译Codex 推出 Handoff 功能，支持用自然语言指令将正在进行的任务连同完整 Git 状态（未提交代码、当前分支）从笔记本迁移到远程服务器继续运行，之后可再拉回本地。前提：本地需在 Settings > Connections > SSH 配置远程主机；远程也需安装 Codex 并开启“允许其他设备连接”，双方登录同一 ChatGPT 账号；远程需有同一 Git 仓库的克隆并保存为项目，子目录路径需匹配。该功能解决了 AI 编程中途离开时任务进度的托管问题。

Orange AI@oran_ge · 6月20日45

独立开发者的实战经验分享

译独立开发者的实战经验分享 [引用 @MengkePM]：http://x.com/i/article/2067506549107691520

AYi@AYi_AInotes · 6月20日68

用 Codex 写代码最大的坑是写完才Review，分享3个实用技巧：把 Review 从写完检查挪到动手之前，返工率直接砍半，三个方法按需拿走： 1️⃣ 零成本即用版：贴一次，省掉一半返工把这段话贴在需求最前面： "先别写代码，先复述你对任务的理解，我最想解决的问题是什么，哪里还有歧义，直接开写最可能误解哪，最后给执行计划。" 2️⃣ 官方内置版输入 /plan 或按 Shift+Tab Codex 会自己收拢上下文，抛澄清问题，输出完整执行计划再动手，需求越模糊，这个越管用 3️⃣ 一劳永逸版在 AGENTS.md 里写入强制前置规则让它每次接任务先深度思考、复述需求、识别风险，再执行不用重复贴指令，一次写入永久生效好的 Agent 从来不是反应快和撸代码的手速快，先把方向搞对，再跑速度才是王道，哪个层级的你已经在用了，评论区说一声

译用 Codex 写代码时，把 Review 从写完检查挪到动手之前，返工率可大幅减少。三种方法：1）零成本版：在需求前加指令要求先复述任务、澄清歧义、给出执行计划再写代码；2）官方内置版：输入 /plan 或 Shift+Tab，让 Codex 自动收拢上下文、输出完整计划；3）一劳永逸版：在 AGENTS.md 中写入强制前置规则，要求每次任务先深度思考、复述需求、识别风险再执行。好的 Agent 先方向正确再追求速度。

meng shao@shao__meng · 6月20日63

驾驭 Claude Code：CLAUDE.md 配置文件、Skills、Hooks、Rules、Subagents 等 7 种指令全解析 Claude Code 最新博客，围绕七种方法展开： CLAUDE.md 文件、Rules、Skills、Subagents、Hooks、Output Styles、Appending the System Prompt。每种方式的本质差异体现在三个维度： · 何时加载进上下文 · 会话压缩后是否保留 · 消耗多少 token、权威性如何 https://claude.com/blog/steering-claude-code-skills-hooks-rules-subagents-and-more 1. CLAUDE.md 文件项目根目录下的 Markdown 文件，是最基础的配置层。分两类加载：根目录 CLAUDE.md 在会话开始时全程驻留上下文，压缩后重新读取；子目录 CLAUDE.md 按需加载，仅当 Claude 访问该目录下文件时才触发，压缩后即失效。关键警示：在共享仓库中，CLAUDE.md 往往像任何无人负责的配置文件一样，各团队不断追加内容却从不删减，成本在规模上会持续累积。每一行都会加载进每位工程师的每次会话，无论与当前任务是否相关。 claude 官方建议：控制在 200 行以内，指定负责人，像审查代码一样审查变更。 2. Rules 存放在 .claude/rules/ 的 Markdown 文件。最有价值的特性是路径作用域：通过 paths 字段控制仅在触碰特定文件时才加载。例如只在 src/api/** 被访问时才注入"所有 API 处理器必须用 Zod 验证输入"的规则，而不是全程占用 token。无 paths 限定的规则，行为等同于 CLAUDE.md——始终在场，始终消耗。 3. Skills 存放在 .claude/skills/ 的程序化工作流。设计精妙之处：会话开始时只加载名称和描述；完整内容仅在技能被调用时才载入，可通过斜杠命令或任务自动匹配触发。适合封装部署流程、发布检查清单、代码审查流程等固定程序，而非塞进 CLAUDE.md。Claude Code 自带若干内置 Skills，也支持自定义。 4. Subagents 存放在 .claude/agents/ 的独立助理定义。与 Skills 的关键区别在于隔离性：子智能体在自己独立的全新上下文窗口中运行，返回给主会话的只有最终消息（通常是多个子任务的聚合结果）加上元数据，中间过程完全不污染主会话。适合"跑完就丢"的旁路任务：深度搜索、日志分析、依赖审计。子智能体最多可嵌套五层深，支持动态编排数十到数百个后台 Agent 并行运作。 Skills vs Subagents 选择原则：想在主线程中逐步看到、随时干预 → Skills；想要隔离运行、只要最终结论 → Subagents。 5. Hooks 注册在 settings.json 中，在 Claude 生命周期的特定事件上触发（文件编辑、工具调用、会话开始等）。这是确定性控制的唯一真正实现：Hooks 完全绕过上下文压缩机制，配置本身存在于主上下文窗口之外，因此上下文成本极低。支持 command、HTTP、mcp_tool（确定性执行）和 prompt、agent（用模型判断）五种类型。一个 PreToolUse hook 可以拦截任何工具调用，以 exit code 2 阻止其执行。重要观点：凡是写在 CLAUDE.md 里的"永远不要做某事"，都是错误的工具选择。Claude 大多数时候会遵守，但在长会话、模糊情况或遭遇提示词注入时可能失效。真正的硬约束必须是确定性的，而 Hooks 和权限控制才是实现方式。组织级强制管控还可以使用 Managed Settings（管理员部署，用户无法覆盖）。 6. Output Styles 存放在 .claude/output-styles/ 的文件，直接注入系统提示，永不被压缩，权威性最高。高权威有代价：自定义输出风格默认会替换掉 Claude Code 的默认输出风格，包括"如何界定改动范围、何时添加注释、如何处理安全问题、声称完成前是否运行测试"等关键编程默认指令，使 Claude Code 退化为通用助理。官方建议先看内置风格（Proactive/Explanatory/Learning），覆盖大多数需求，无需自己维护文件。 7. Appending the System Prompt 通过 CLI flag 在调用时追加，仅对本次调用生效，不跨会话持久化。与 Output Styles 的区别是只增不替换，不改变 Claude 的角色设定，只是在默认角色上叠加指令。注意边界：追加系统提示存在边际收益递减问题。提供的指令越多，Claude 的遵从度越低，若指令之间存在矛盾则尤为明显。几个实用决策原则 1. 每次编辑后自动跑 linter × 写进 CLAUDE.md √ 用 Hook 注册到 PostToolUse 2. 禁止某类危险操作 × "Never do this" 写 CLAUDE.md √ PreToolUse Hook + exit code 2 3. 30 行部署流程 × 塞进 CLAUDE.md √ 放进 .claude/skills/ 4. 只对 API 目录生效的规则 × 无路径限定的 Rule √ 用 paths: 字段作用域限定 5. 个人习惯偏好 × 写进项目级 CLAUDE.md √ 写进用户级配置（对所有仓库生效）

译博客详解 Claude Code 的七种指令配置（CLAUDE.md、Rules、Skills、Subagents、Hooks、Output Styles、追加系统提示），从加载时机、压缩后保留性、token消耗与权威性三个维度对比。CLAUDE.md 分根目录（全程驻留）和子目录（按需加载）；Rules 支持路径作用域节省 token；Skills 仅加载名称和描述，调用时载入完整内容；Subagents 独立上下文运行，只返回结果；Hooks 绕过压缩实现确定性控制；Output Styles 直接注入系统提示且永不被压缩；追加系统提示仅单次生效。文章给出实用决策原则，如用 Hook 跑 lint、用 Skills 封装部署流程等。

Tibo@thsottiaux · 6月20日21

Late to this one, but follow @danshipper for S-tier codex tips. These days I spend more time in the codex app than all other apps combined on my Mac.

译@danshipper 分享了如何每天使用 Codex 实现收件箱清零。主推文表示虽然晚了，但推荐关注他获取顶级 Codex 技巧，现在自己在 Codex 上花的时间比 Mac 上其他所有应用加起来还多。

Tibo@thsottiaux · 6月20日62

Remote / local handoff in Codex! Removing boundaries one at a time. When you let the model be in the driver seat, you actually need less infrastructure.

译Remote / local handoff in Codex! 一步步消除边界。当你让模型掌握主导权时，实际上需要的底层设施更少。

jason@jxnlco · 6月20日23

Codexチームのリスト「なんで自分が入ってないの？」ってDMが来る前に https://x.com/i/lists/2067819170989854863

jason@jxnlco · 6月20日10

codex, every once in a while, just open up some tabs that you think would be interesting and just leave them in my Chrome browser.

译codex，每隔一段时间，就打开一些你觉得有趣的标签页，然后把它们留在我的Chrome浏览器里。

jason@jxnlco · 6月20日49

we put codex in your computer and you can give your codex a computer to put codex in

译Codex 现在可以在本地和远程主机之间切换任务。在笔记本上开始工作，合盖前发送到远程机器，稍后取回。Codex 能自主编排这一切换过程。

宝玉@dotey · 6月20日49

哈哈，绝了，通过提示词注入让那些通过 AI 提交 PR 并且不人工审查的现出原形！

AYi@AYi_AInotes · 6月20日61

卧槽看完这个帖子我真的惊呆了， Theo让Codex通宵打扫GitHub的僵尸PR坟场，自己踏踏实实睡了一整晚，我把他这套工作流拆出来了，大家可以直接抄作业，我翻了下评论区，让 Codex 通宵清理 GitHub 僵尸 PR 这件事，好多人只看到了自动关 PR 的爽感，其实真正值钱的是——每个被复活的 PR 同时跑了两个线程，一个 Build 线程负责写代码、更新、修复冲突，一个 Review 线程负责审查代码，相当于给每个任务配了一个写手和一个审稿人，单点幻觉风险被结构性降低了，我把这套玩法拆成三步，现在就能抄： → Triage 分诊：让 AI 先把所有 open PR 过一遍，判断哪些没用、哪些有价值但过时了，这是最耗人类脑力的前置步骤，现在被自动化了 → 关掉无用的：没意义的直接关，不用纠结 → 复活有价值的：给每个还剩一口气的 PR 分配双线程并行推进，人类只在关键节点看一眼这真的不是简单的工具升级了兄弟们，把仓库维护从一个人的拖延症，变成了一套 agent 排班制度，真他么妙啊，你睡觉，它上班，你醒来只看决策就行了！快去看看你的 GitHub 仓库里有没有压了三年的僵尸 PR，今晚扔给 agent 试试 👇

译开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR：自动分诊判断价值，关闭无用的，复活过时的。每个被复活的 PR 同时运行两个线程——Build 线程负责修复冲突和更新代码，Review 线程负责审查代码，形成写手+审稿人的双保险，降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度，实现“睡觉时自动干活，醒来只看决策”。主推文作者拆解出三步：Triage 分诊、关闭无用、复活并行推进，可直接复制使用。

elvis@omarsar0 · 6月20日70

http://x.com/i/article/2068004233849290752 # From Prompting Agents to Loop Engineering A claim has been circulating in AI coding circles: stop prompting your coding agents and start designing loops that prompt them for you. As with everything new, this stuff gets repeated often and explained rarely. This is the practical version: what an agent loop is, why it matters, and what one looks like in production. Below you can read some of my thoughts (written with the help of Claude) from some of the experiments, research, and conversations I’ve been having with some of our students, technical founders, AI engineers, and startups. You might also find our recent live session on "Autonomous Long-Running Coding Agents" as a good starting point for all of this. ## Where the claim comes from > "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."Peter Steinberger (@steipete), Jun 7 2026. 2.2M views. Original tweet Boris Cherny, the creator of Claude Code, makes the same point from the other side. > "I don't prompt Claude anymore. I have loops that are running. They're the ones that are prompting Claude and figuring out what to do. My job is to write loops."Boris Cherny (@bcherny). Original tweet The point is not that prompt engineering is dead. With loop engineering, the work moves up a level, from writing the code to writing the system that writes the code. Developers furthest along this path report months where they shipped hundreds of PRs without opening an IDE, with every line written by the agent. ## What a loop actually is A loop is a small program you write that does four things: - prompts the coding agent for you, - reads what it produced, - decides whether it is done, - and if not, prompts it again with the error or the next step. You stop sitting inside the loop typing prompts; you write the loop, and the model becomes a subroutine it calls. The shape is always the same: set a goal, act, check, feed the error back, and repeat until the check passes or the loop stops itself. ## "Loop" means at least five things Much of the disagreement is people using one word for five different ideas. Here is the progression, oldest to newest. - ReAct (2022). The original research pattern: reason, act, observe, repeat. - AutoGPT (2023). A self-prompting goal loop, notorious for not knowing when to stop. - ralph loop. A deliberate context reset between iterations so the agent does not drown in its own history. - /loop and /goal. Cadence and completion conditions are built into the agent, carrying the state across turns. - orchestration. One author fans out many agents that read your GitHub, Slack, and chat, and decide what to build next. ## The parts you actually assemble The progression explains what people mean by loop; this is what a loop is built from. The same six parts show up every time, and most now ship inside the coding tools instead of custom scripting you maintain yourself. - A trigger. Something that starts the loop without you pressing go: a schedule, a webhook, a file change, a label landing on a PR. This is what separates a real loop from a single run you repeat by hand. - Isolation. A private checkout per agent, usually a git worktree, so two agents running at once cannot overwrite each other's files. Once you run more than one, this stops being optional. - Written-down context. The conventions, build steps, and project-specific rules are kept where the agent reads them on every run. Skip it, and the loop re-derives your project from scratch each pass and guesses at the gaps. - Reach into your tools. Connectors to the issue tracker, CI, database, and chat, so the loop can open the PR, link the ticket, and post the result instead of printing a fix and waiting for you to carry it the rest of the way. - A second agent checks. A separate worker who grades the output is held apart from the one who produced it, because a model reviewing its own work passes almost everything. - State on disk. A markdown file, a board, or a queue: anything outside the conversation that records what is finished and what is next. The model forgets between runs; the file does not. Assemble those six, and you have a good starting point for loop engineering. You used to hand-build everything; now most ship as built-in features, which is why the pattern has moved from a fringe technique into common use. ## A concrete loop, the PR babysitter A concrete example you can build today: - Trigger. Every 15 minutes. - Scope. Open PRs labeled agent-watch. - Action. If CI is red for a deterministic reason, attempt one fix. If the main moved, rebase once. - Budget. One fix attempt per PR, five minutes, ten files changed. - Stop condition. CI green, or budget exhausted, then stop and ping a human. You return to merged PRs instead of a backlog of broken builds. The same shape covers most ops work: - CI health. Every 30 minutes, pull failing runs and cluster them by signature, so ten red PRs with one root cause become one thing to look at. - Deploy verification. After a push, hit your endpoints, confirm 200s and the expected content, and flag regressions before users do. - Feedback clustering. Every 30 minutes, pull comments from your channels, group them into themes, and map each cluster to the file or doc that owns it. ## A concrete Claude Code loop with /goal The babysitter is a loop you wire up yourself; it also helps to see one that ships inside the agent. In Claude Code, the smallest complete loop is /goal: you hand it a verifiable end state, and it keeps taking turns until that state is true. Here is an example of /goal used as an in-session command in Claude Code. You launch the session, then set the goal inside it: It is the same act, check, repeat shape from earlier, with the verifier built in. At this point, it’s clear that a strong /goal reads less like a prompt and more like a contract. The good ones specify four things: the end state you want, the evidence that proves you reached it, the constraints the agent must not break getting there, and the budget of work it is allowed to spend. Leave any one of them vague, and the model fills the gap with the easiest reading: it stops early, takes a shortcut, or redefines success so the transcript looks done while the real system is broken. - Set the condition. Type /goal plus a checkable end state, for example,/goal tests in test/auth pass. The first turn starts immediately. - The agent works a turn. It edits, runs the tests, and surfaces the results in the session. - An evaluator checks. A fast model reads the transcript and decides whether it is met or not met, so the agent is not grading its own work. - Loop or finish. Not met means another turn with guidance; met means the goal clears itself and the run stops. State carries across turns, so it does not quit early or drop a constraint partway through. A few controls keep it reliable: - Make the check measurable. A test result, an exit code, a file count, or an empty queue. npm test exits 0 is a goal; "make it better" is not. - Bound the run. Append something like "or stop after 20 turns" so a stuck loop halts instead of burning turns. - Pair it with auto mode so that turns run unattended, and use /goal clear to abandon it early. The evaluator step hides a useful subtlety: the checker does not have to be the same model as the coder. Once the loop has distinct roles (planner, executor, evaluator, vision reviewer), each can run on a different model, and choosing which model fills which role becomes an architecture decision rather than a single bet on one "best" coding agent. Some models plan better, some execute more cheaply, some judge a screenshot more accurately, and a good orchestrator lets you swap them per role instead of waiting for one vendor to win every category. It works well for API migrations (move every call site until it compiles and tests pass), refactors (split a file until each module is under budget), issue backlogs (work a labeled queue until it is empty), and eval loops (tune a prompt until the score clears a threshold). /loop is the counterpart for work with no single finish line: instead of a completion condition it re-prompts on a schedule, which is how a loop like the PR babysitter keeps running. ## Running many loops unattended A single /goal loop is one agent working toward one finish line. Running many unattended processes raises the stakes, because a loop is only as trustworthy as its ability to check its own work. Cherny's setup for running Opus autonomously for hours comes down to five steps: 1. Auto-approve permissions so the agent does not stop to ask on every tool call. 1. Use dynamic workflows (drop Ultracode into the prompt) to fan out across many agents instead of one serial thread. 1. Use /goal or /loop to keep it going. /goal sets a completion condition, /loop re-prompts on a schedule, and both carry state, so it does not quit early. 1. Run it in the cloud (desktop or mobile app) so the session survives when you close the laptop. 1. Give it a way to self-verify end-to-end. Claude in Chrome for web, a simulator MCP for mobile, and a live server for backend. This is the step that makes the other four safe. The full sequence: ## crabfleet: orchestration as a product Orchestration is easier to picture with a concrete tool. Peter Steinberger's crabfleet, an OpenClaw project billed as "mission control for agent runs," is a loop packaged as a product, and its shape maps onto everything above. - Work as cards on a board. Tasks are entered as cards built from a prompt, a GitHub issue, or a PR, then move through todo, running, human review, and done. That board is the loop's queue and its stop-and-report step, made visible. - Durable runs, not fire-and-forget. Each run is a tracked attempt with heartbeats, so it keeps going when you look away and survives a closed laptop. You take over only when the runtime advertises that it supports handoff. - Agents that spawn agents. A run can start child sessions, send messages, read transcripts, and update its own summary from inside a sandbox: on-disk memory and fan-out in one place, one author and many agents. It runs on disposable cloud sandboxes with browser-based terminals, which is what makes walking away from an unattended run safe. The point is not the specific tool but that the loop has hardened into infrastructure: a queue, durable execution, fan-out, and a human-review gate are now things you configure rather than hand-script every time. ## Where the cost goes now For two years, the cost question in AI coding was simple: which model, and how many tokens. Inside a loop, that instinct points at the wrong layer. The spend is no longer a single call but how many times the loop goes around, so a loop that retries six times before it converges costs six times as much as one that lands on the first pass, on the same model. That changes what is worth optimizing: - Iterations are the budget line, not tokens. A cheaper model that loops twice as often is not cheaper, so track cost per finished task, not cost per call. - A weak verifier is the most expensive bug you can ship. If the check that decides "done" is loose, the loop either stops early on broken work or grinds on work that was already fine, and both waste whole iterations. Tighten this before anything else. - Failing fast is a cost control. A loop with no cap on consecutive failures does not eventually succeed; it eventually drains the account, so the stop condition protects the bill as much as the codebase. You used to tune the prompt; now you tune the loop, because that is where the cost accumulates. ## When not to loop Loops pay off when a task repeats, and a machine can tell when it is done. Outside that, a loop only automates churn. Skip it in these cases: - One-shot edits. If you can finish it in a single pass, a loop is pure overhead. - Unscoped or exploratory work. "Figure out why users are churning" has no pass condition, so the loop never converges. - Anything without a cheap automated check. If the only verifier is your own eyes, you are still inside the loop. Build the check first, or do the task by hand. ## What can go wrong A loop that runs while you sleep also makes mistakes while you sleep, and the failure modes are predictable. - The verification burden stays human. The loop writes faster than you can review, so if you stop reading the diffs, you have not removed the work, only deferred it. - Comprehension gaps widen. Shipping code you did not write, faster than you can absorb it, erodes the model of your own system, and that debt comes due during the next incident. - Silent drift on a loose check. A weak verifier lets wrong-but-passing work through on every iteration, so the loop looks productive while it digs a hole. None of this is an argument against loops; it is why the engineer who designs the loop matters more, not less. ## How to build your own 1. Pick one repeatable task. Babysitting PRs, fixing CI, verifying deploys: start with routine work. 1. Scope it tight. "Fix the billing webhook validation, only touch app/api/billing and lib/billing," beats "fix the bug." A loose loop wanders. 1. Give it a budget and a stop condition. Max attempts, max runtime, max files, max spend, max consecutive failures. A loop running unattended is also a loop making mistakes unattended. 1. Add an independent verifier. A separate sub-agent grades the work, because the agent who wrote the code is the worst judge of whether it is done. 1. Run it on a cadence. /loop for an interval, cron for a schedule, hooks at lifecycle points, or GitHub Actions so it survives a closed laptop. 1. Keep memory on disk. The model forgets between runs, so state lives in markdown or a board, not in the context window. The takeaway: the loop, not the model, is now the expensive and failure-prone part. Build it like someone who intends to stay the engineer responsible for the output, not just the person who starts the run. If you see any errors or things that need further clarification, don’t be afraid to reach out. ## Other Useful References - Addy Osmani (@addyosmani), on AI-assisted coding loops - Matt Van Horn (@mvanhorn), "WTF Is a Loop?" - Peter Steinberger (@steipete), on designing loops - Boris Cherny (@bcherny), on running agents autonomously

译AI编程圈出现新主张：不应再手动提示编码智能体，而应设计循环自动完成提示、读取输出、判断完成，并在出错时重新提示。Boris Cherny（Claude Code创建者）和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态（ReAct、AutoGPT、ralph loop、/loop与/goal、编排），并拆解六大组装部件：触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。

Replit ⠕@Replit · 6月20日48

As your work evolves, your credibility evolves with it. We're proud to be a featured partner in @LinkedIn's connected apps launch. The work you've actually built on Replit can show up right on your in your Linkedin profile. Connect Replit and let your builds speak for themselves. https://news.linkedin.com/2026/visibility-builds-credibility---the-tools-you-use-every-day--now

译随着你的工作不断发展，你的信誉也随之提升。我们很自豪能成为LinkedIn连接应用启动的特邀合作伙伴。你在Replit上实际构建的作品可以直接显示在你的LinkedIn个人资料中。连接Replit，让你的作品自己说话。

AYi@AYi_AInotes · 6月20日53

Claude Code刚上线的Artifacts，对重度使用者和企业团队来说，可能是今年Claude在协作场景里最有实际价值的一次升级🆙 但90%的人都看错了它的核心价值，很多人以为只是加了个网页预览窗口，或者觉得就是把聊天里的代码变成可视化页面，其实真正的杀招是Claude直接钻进了团队协作的全流程里，而且直接戳中了AI编码时代最容易被忽略的瓶颈， Anthropic内部人都说，现在几乎所有工作都靠这个功能完成，因为它不只是单文件的静态预览，核心是把整段工作会话连同代码上下文数据工具调用，直接打包成一个独立网页， Claude在后台继续迭代，页面就会自动同步更新，不用手动刷新重发，生成的组织内私人链接，同事点开就能看到实时进度，还能切换历史版本，从复杂代码的可视化解释，系统架构图，动画方案预览，到可交互的数据分析仪表盘，全都能直接丢链接交付，不用再堆一堆截图配长长文字解释，当然目前这个功能只对团队和企业版开放，个人用户暂时还用不上，但这还不是最颠覆的地方，过去整个行业都在卷模型参数卷上下文长度卷代码正确率，大家都默认AI编码的核心矛盾是写得够不够快够不够准，可当代码生成越来越容易，真正的卡点早就悄悄变了，技术负责人怎么让非技术的产品和老板快速理解方案，数据分析结果怎么让业务方自己交互式验证，复杂系统架构怎么不靠反复开会对齐就能讲清楚， AI生成的东西越来越多，让别人看懂并相信的成本反而越来越高，更狠的是这一步直接把Claude的定位给换了，以前它更像程序员口袋里的个人生产力神器，是专注于你和AI一对一的对话，现在靠着Artifacts加团队企业版的组合，它直接钻进了团队协作的流程里， PR走查的可视化注释，项目的实时仪表盘，故障排查的完整时间线，所有AI的工作过程都能变成可持久化可共享的活文档，本质上都是解决了企业落地AI最大的障碍之一，怎么让AI的产出安全顺畅地融进团队工作流，很多人还在死磕模型能不能一次写出完美代码，但真实的工作场景里，能快速可视化加分享加迭代，对整体效率的提升往往更大，就像以前AI只是帮你写稿子，现在它连带着把可交互的演示页和分发链路一起做好了，后者对整个组织的影响力，显然要高出一个量级，团队版用户现在就能用的思路是，以后做技术方案评审数据复盘原型展示，优先让Claude生成Artifacts链接交付，降低解释成本带来的效率提升，很多时候比单纯提升生成速度还要明显，以前AI工具拼的是帮一个人把活干得有多快，现在开始拼的是帮一整个团队把协作成本降得有多低，这已经不是一次小功能迭代了，已经成为AI产出从静态文本，升级成可交互可共享可实时更新的数字资产的关键一步

译Claude Code新增Artifacts功能，可将整个工作会话（代码、上下文、工具调用）打包成独立网页，后台持续迭代时页面自动同步更新。生成的私密链接可共享给团队成员，支持切换历史版本，适用于PR走查、系统架构图、交互式数据分析仪表盘等场景。目前以beta版面向Team和Enterprise计划开放。作者认为，该功能的核心价值在于将AI产出从静态文本升级为可共享、可实时更新的数字资产，降低技术方案向非技术人员解释的成本，让AI更顺畅地融入团队协作流程。

向阳乔木@vista8 · 6月19日14

准备睡觉，让AI开发一个钓点和渔获记录App。设定 Goal让 Codex执行，看明天钓鱼能不能用上自己的App。

Orange AI@oran_ge · 6月19日37

今天挑战了一下，写了第一个安卓的 app 感谢 GLM 5.2 的帮忙，从安装 android studio 开始指导，一直到 apk 写完，大部分问题都能解决最后 apk 跑起来的时候，还是很欣慰的但也确实遇到了疑难杂症，也可能就是安卓系统搞不定吧目前来看 vibe coding 的东西还是电脑和web最方便调试

译开发者使用 GLM 5.2 从零开始完成第一个安卓 App 开发，包括安装 Android Studio、编写代码到最终生成 APK。GLM 5.2 在大部分问题上能提供有效指导，但遇到疑难杂症时安卓系统仍难处理。作者指出当前 vibe coding 模式在电脑和 Web 端调试最为方便。

elvis@omarsar0 · 6月19日52

As I said before, for that cost & performance, I don't think Fable is worth it for a lot of SWE tasks. Tbc, I think Fable is fantastic, and it clearly shines in design & creativity. Will test it with my loops (and measure frontier efficiency) when it goes live again.

译正如我之前所说，考虑到成本和性能，我认为 Fable 对于很多 SWE 任务来说并不值得。需要说明的是，我认为 Fable 非常出色，它在设计和创意方面明显表现优异。等它重新上线后，我会用自己的循环测试它（并衡量前沿效率）。