congrats @jxmnop ! so many aie speakers announcing companies ahead of the conference

译恭喜@jxmnop！这么多AIE演讲者在会议前宣布成立公司。

Garry Tan吐槽Dropbox只有3T空间,但90%的人没看懂他真正在说什么。这显然不是一个普通的产品吐槽,更像是在AI数据海啸来临前,非常明确的预警信号。核心变化只有一个,数据生产的底层逻辑彻底变了。 1. 从人创造数据,变成人加AI共同创造,AI的产出规模更大以前一天写几千字顶天了,现在跑一次agent工作流,做一轮模拟实验,生成一套教学内容,留下的轨迹输出知识片段,全都是带结构能直接喂模型的高质量可用数据。 Garry特意强调的actually usable这四个字,才是整件事的核心。这些数据删了就是丢了未来训练个人模型的燃料。 2. 存储的价值逻辑完全换了过去卖的是容量加同步加分享,现在核心需求是把海量可用数据变成能快速找到能关联能直接喂给模型的燃料。裸存储越来越便宜,堆空间没有任何壁垒,真正值钱的是管理智能。语义搜索自动分类向量数据库联动,这些才是刚需,一层层翻文件夹的老架构,数据量一涨直接失效。 3. 最反直觉的一点,AI不会帮你省存储很多人觉得AI能压缩去重,数据应该变少。结果正好相反， AI把创造高质量数据的边际成本打到极低,人和agent会产出远超以往的真正有价值的数据。最先走的永远是重度用户，个人开发者研究员内容创作者,会最快撞到3T的天花板,他们迁移成本最低决策最快,会成为新工具的第一批使用者。大众用户可能还觉得够用,但增长最猛的核心用户群,会先一步流失。 Garry作为YC的CEO,哪里是在骂Dropbox啊，我觉得他是在给所有创业者递信号,谁能替个人和小团队接住这波可用数据爆炸,谁就能抓住下一波工具浪潮。做AI agent,做personal OS,做认知工具的人都该好好琢磨这件事，你的用户很快就会需要一个能装下他们整个AI生活的数据后端,而不是一个2015年的文件同步工具。

译YC CEO Garry Tan 指出 Dropbox 不支持大于 3TB 的套餐已过时，AI 产生的“实际可用”数据将指数级增长。核心变化：数据从人创造变为“人+AI 共同创造”，一次 agent 工作流就能生成大量结构化高质量数据；存储价值从容量转向管理智能（语义搜索、向量数据库等）；AI 将边际成本打至极低，反而催生更多高质量数据。重度用户（开发者、研究员、创作者）将最先撞上 3T 天花板并迁移。作者认为这是给创业者的信号：谁能替个人和小团队接住可用数据爆炸，谁就能抓住下一波工具浪潮。

Microsoft Research@MSFTResearch · 6月24日48

On the Microsoft Research Podcast, Microsoft’s Jaime Teevan, Jenna Butler, Jake Hofman, and Rebecca Janssen explore how looking at AI as more than a tool for automating tasks people are already capable of might open the door to new possibilities. https://msft.it/6011vo8cX

译在微软研究播客上，微软的 Jaime Teevan、Jenna Butler、Jake Hofman 和 Rebecca Janssen 探讨了，将 AI 视为不仅仅是自动化人们已能完成任务的工具，可能会如何打开新的可能性。https://msft.it/6011vo8cX

François Chollet@fchollet · 6月23日44

Casual: Token maxxing Sweaty: Token minning Meta: Token min-maxing

译休闲：Token 最大化紧张：Token 最小化元：Token 最小-最大化

Berryxia.AI@berryxia · 6月23日68

http://x.com/i/article/2069426743950417920 # a16Z砸钱，他却说[顶级审美AI做不到]！Impeccable创始人另起炉灶，打出人类设计大旗！ > 申明：本文为人类与AI协作完成，如对AI敏感，请退出，请悉知。本文翻译自：@Pbakaus Paul Bakaus 今天宣布正式创立 Renaissance Geek——Impeccable 背后的公司，拿到了 a16z 领投的融资（由 Anish Acharya 主导），同时宣布与 GitHub 达成合作。以下是他押注的方向，也是我认为当下创意工具领域最值得关注的一篇思考。 ## 一个奇怪的时刻现在是一个做出优秀数字作品的奇怪时刻。突然之间，几乎任何东西的初稿都变得极其容易产出：代码、界面、文案、图片、内部工具、原型、演示文稿、产品创意。空白页不再那么空白，过去需要几天的工作现在几分钟就能完成。AI 毫无疑问地拉高了地板。然而。为什么做出真正优秀的东西反而感觉更难了？我们被告知要让 AI 代替我们执行——用一个 prompt 输入来换取那些耗时的、手工的创造性劳动。全力投入“循环最大化”（loopmaxxing）。我们可能不得不牺牲精确度，但至少出货更快了，对吧？这是一个伪二元对立。有一个原因，我们至今没有看到 AI 视频领域的宫崎骏、AI 音乐领域的保罗·麦卡特尼、AI 写作领域的村上春树、或 AI 设计领域的 Tobias van Schneider。 ## “降低地板，抬高天花板” John Maeda 最近提醒了我这句话，它可以追溯到 MIT 计算机早期。降低门槛，让更多人能创造东西；抬高天花板，让专家能走得更远。 John 用这句话来描述当下这个时刻，并慷慨地将 Impeccable 列为正在“降低门槛”的工具之一。他说得对，我会继续把门槛往下推，直到达到一个扎实的基线完全不费力气。事实上，我成年后的大部分时间都在追求我所说的**“反守门”**：jQuery UI 让一代网页设计师第一次能交付丰富的 Web UI；Chrome DevTools 成为设计师预览移动端效果的可信工具；而 Impeccable 则把合格的设计能力带给每一个需要它的人。但优秀的作品不是一次性生成的。它来自清晰的意图、不懈的迭代、判断力和手艺。现在做出“某个东西”非常容易，但做出真正伟大的东西——更不用说定义一个品类的东西——仍然非常困难。盲目地更快出货不是策略，很多公司即将以昂贵的方式学到这一课。我们构建的创意 AI 工具不能只关注降低准入门槛和拉高产出下限，它们还必须让创作者能够在最后一公里介入 AI 的自主循环——那推动作品脱离分布、脱离平庸的最后 20%。 ## 品味可以被放大，但无法被实验室培育现在有一个诱人的想法在流传：也许我们可以“解决”品味这个问题。训练更好的模型，建立更好的品味基准，捕捉模式，让模型默认产出有品味的作品。我理解这种吸引力。但我认为它偏离了重点。我最近的一个新爱好是分类和检测“设计泔水”（design slop）。Impeccable 是目前最流行的去除这类明显泔水的方式之一。但泔水的消失并不等于品味的出现。泔水还是一个移动靶。2022 年它长这样：紫色渐变和发光按钮。我们试图修复它——告诉模型避免这些模式，把它们推向潜在空间的另一个区域。然后我们得到了 2026 年的泔水：暖米色背景上的 Instrument Serif 斜体标题。这不是糟糕的设计。在对的人手里它可以很好。但当这个模式无处不在时，它就不再传递品味，而是传递**“没有做出决定”的信号**——更糟的是，它根本不出彩，因为它不突出。今天的泔水解药在所有人都伸手去拿的那一刻，就变成了明天的泔水。所以不，你无法把品味装进瓶子里。它是个人的、语境化的、永远在移动的；试图量产它，你得到的是算法版优衣库。你能做的是捕捉那些与品味无关的破绽——弱层级、懒间距、破碎的对比度、每个模型在无人引导时都会生成的构图——Impeccable 做的正是这件事。但剥离泔水只是支线任务。主线任务是放大人类意图。最好的创作工具给你更锋利的器具，把“看见”留给你；相机不会告诉你拍什么，它只是让更多的拍摄成为可能。 ## 设计正在迁入生产环境设计/工程交接正在崩塌。它所假设的世界——设计冻结，然后工程师将其翻译为代码——几乎不存在了。代码现在每天都在变，一个 Agent 可以在午饭前生成十个新的界面状态。一个冻结的设计稿跟不上一个不肯静止的产品。我整年都在看这件事发生，从初创公司到财富 500 强。产品经理在直接写真实代码，设计师正在变成设计工程师。工作正在迁移到产品实际存在的地方。在这一切中，工程师每周都有新工具。设计师大多被落下了。为他们出现的东西，要么是给 PM 和工程师建的，要么是老牌工具在现有设计画布上接更多连接器。 Figma 仍然重要——它是探索和思考的好地方，这一切并不意味着设计师必须学写代码（虽然我坚信熟悉 CSS 和 HTML 会让你成为更好的网页设计师）。转变比那更简单：更多真实的设计工作现在发生在活的产品上、在浏览器里、在它实际上线的地方。理由很充分：它带来更快的迭代而没有流程摩擦，而其他人还在等待交接。这个缺口就是我构建 Impeccable 的原因。它教 Agent 说设计语言，让设计师、工程师或创始人可以用自然语言引导：批评这个布局、修复字体、重新配色——然后在浏览器中实时看到变化。你用 Impeccable 创建的一切都是真实的生产代码，可以直接上线。 ## 人机界面仍然原始人与 Agent 的交互界面仍处于早期。现在与 Agent 协作的主流方式是聊天。聊天很强大，我一直在用。但聊天也是被动的——它给你一个空白框，要求你想象一切。优秀的创意软件完全不是这样工作的：视频编辑器给你时间线，设计工具给你带图层和参考线的画布，音乐软件给你可以看到和拖动的音轨。它们都不只是接受命令——它们展示作品，让你在推动它时感受到变化。大多数 AI 工具仍然像一个坐在帘子后面的天才实习生。你几乎可以要求任何东西，但界面很少帮助你发现该要求什么。这必须改变。如果 Agent 要和我们一起做创意工作，它们需要更丰富的循环：批评、比较、记忆、实时调整的方式。 Impeccable 的共享设计词汇和 Live Mode 是更主动的人机界面的早期实验。你可以指向作品、引导它、比较变体、将修改接受回源代码。还有大量空间可以探索，Renaissance Geek 将深度投入放大创意工作的界面和工作流。 Impeccable 是这个新时代的第一个工具，但绝不会是唯一一个。 ## 文艺复兴极客的时代很长一段时间，做通才被视为一种负债。选一条赛道，专精，成为那个设计师、工程师、PM、营销、运营。团队围绕着角色清晰分离的人之间的交接来构建。 AI 正在让这个模型显得不那么必然。现在看起来最“危险”的人是 T 型通才——高品味、高意图、高能动性、深度好奇心。他们可能起步于设计师、工程师、创始人、写作者、研究员或运营。但他们越来越多地生活在代码附近，因为代码是想法变为现实的地方。这就是**“文艺复兴极客”**：一个现代版的“文艺复兴人”，能够在学科之间穿梭，因为 AI 给了他们触达范围。而他们对艺术、文化、社会和技术的真诚兴趣所驱动的不断进化的品味，给了他们方向。这些是我最在乎的人：那些想要作品更好而不只是更快的人，那些仍然为最后 10% 较真、能感觉到一个产品没有观点的人。 AI 将让这些人变得强大得多。 ## 正在构建什么 Impeccable 是 Renaissance Geek 的第一个放大手艺的产品，专注于让它成为个人创业者和大型企业日常信赖的工具包。为了将 Impeccable 送到更多构建者手中，今天还宣布 Renaissance Geek 与 GitHub 达成合作。 GitHub 团队关心同样的事情：提升质量和设计的天花板。这就是为什么 Impeccable 预装在新的 GitHub Copilot 应用中——世界上使用最广泛的 Agent 工具之一。每个打开应用的构建者从一开始就拥有设计和质量层。在 a16z 领投的融资支持下，Renaissance Geek 将继续构建最后一公里的工具——帮助人类引导 AI 走向值得上线的作品。 AI 的下一波浪潮不应该是把人类进一步推出循环。那个故事无聊且反乌托邦。更有趣的未来是令人愉悦的奇异和激动人心的：小团队拥有巨大的能力范围，设计师在代码中移动，工程师突然学习垂直韵律，PM 在原型真实产品，Agent 成为主动的协作者，手艺人用机器做出独自不可能完成的作品。 AI 拉高了地板。是时候抬高天花板了。本文由 YouMind 自动从 Markdown 转换排版。

译Paul Bakaus宣布创立Renaissance Geek，旗下设计工具Impeccable获a16z领投融资（Anish Acharya主导），并与GitHub合作——Impeccable预装在GitHub Copilot应用中。他认为AI拉高了创作下限，但优秀作品仍依赖人类意图、迭代与品味；Impeccable只剥离“设计泔水”而非输出品味。设计正从Figma迁入浏览器生产环境，Impeccable让用户用自然语言指导Agent实时修改生产代码，推出Live Mode实现主动人机交互。他定义“文艺复兴极客”为跨学科的T型通才，AI将放大这类人的能力。

Runway@runwayml · 6月23日23

The human mind is no longer the center of AI. Our world is.

译人类心智不再是AI的中心。我们的世界才是。

X.PIN@thexpin · 6月23日43

Musk and http://Z.ai really disgreed on how fast China's AI development is.

译马斯克和 http://Z.ai 对中国人工智能的发展速度确实存在分歧。

AYi@AYi_AInotes · 6月23日55

一个独立开发者因为太寂寞，用开源工具拼出了有记忆有性格的真人数字分身，我觉得这件事有些撕开了 AI 陪伴最容易被忽略的真相，作者最初只是想做个自己的分身陪自己说话，换成网红峰哥的人格后体验完全升级，整套方案用四款开源工具串起全链路，人格蒸馏把几百条笔记压缩成性格与说话风格，搭配长期记忆系统和实时语音框架，硬生生把延迟从最初的八到二十秒压到了一秒以内。更值得注意的是，整套方案没有依赖任何顶级商业 API，个人开发者靠开源工具组合加全链路优化，就做出了超越多数商业产品的体验感。这早就不是什么普通的换皮语音聊天机器人了兄弟们，我感觉是已经摸到了低成本数字人格孪生的落地门槛。以前大家默认 AI 陪伴要万能要温柔，可事实证明人格的独特性才是核心吸引力，有脾气有立场有记忆的实体，远比标准答案式的助理更能填补情感空白。也许未来每个人都能拥有专属数字分身这件事，比我们想象的来得要快得多，毕竟技术的起点从来都不是宏大的商业概念，只是一个人有点寂寞，想和自己说说话。 https://x.com/leaf_sanren/status/2069342335268507976/video/1

译独立开发者用四款开源工具做出有记忆性格的数字分身，未依赖商业API。通过人格蒸馏将几百条笔记压缩成性格，搭配长期记忆和实时语音框架，延迟从8-20秒降至1秒内。换网红峰哥人格体验更佳，认为人格独特性而非万能温柔才是AI陪伴核心。

向阳乔木@vista8 · 6月23日41

最近听到了好多workbuddy在中小企业的应用，出乎意料的受欢迎。这可能是腾讯目前最PMF的AI产品。

swyx@swyx · 6月23日56

i dont think anyone is correctly doing the math around how SpaceX, the NeoCloud+NeoLab, is currently going to market? SpaceX has already recouped about HALF its investment in Cursor, in compute deals. The other half is paid for if Composer 3 does well. No other company is simultaneously a leading model lab + neocloud (at least where GPUs is concerned). its a crazy effective combo iff you've adequately planned out gpu supply if inhouse training 1) goes very well 2) doesn't go very well

译SpaceX（NeoCloud+NeoLab）通过计算交易已收回对Cursor约一半投资，另一半若Composer 3表现良好即可回本。据CNBC报道，SpaceX与Reflection签署63亿美元计算协议，Reflection将立即获得GB300s用于训练开源模型，并从2026年7月1日起每月支付1.5亿美元直至2029年。SpaceX是唯一同时作为领先模型实验室和NeoCloud的公司，在规划好GPU供应时这一组合极为高效。

Berryxia.AI@berryxia · 6月23日45

Dankoe的新文章把“AI会取代工作”这个话题彻底翻了个面，他说真正的威胁从来不是AI，而是你对别人的依赖。 Smith把这篇文章是之前那篇2亿阅读《如何重启人生》的续作，核心观点很直接：AI再强大，也只是工具。真正会让你被淘汰的，是你还把自己当成“被安排的人” 靠工资生存、没有自己的东西、没有独立创造的能力。他给出了在AI时代活下来的几个关键： - 逃离工资奴役，本质是把主动权拿回来 - 成功的五种成分：主动性、品味、说服力、持续力、迭代 - 媒体（内容创作）比代码更重要，因为内容需要人的判断和品味，而这些是AI目前给不了的 - 最实际的起步动作：改变环境 + 选一个反馈强的载体 + 明确自己的人生之作 + 明天就发布第一条内容 AI把“构建东西”的门槛大幅降低了，但“判断什么值得构建”和“根据真实反馈持续迭代”的能力，依然是人的核心竞争力。那些只知道喊“f*ck AI”或者只会让AI生成内容的人，依然会被时代甩在后面。这篇文章理论和实操结合得很好，翻译版也整理得非常清晰，值得认真看一遍。

译Dankoe的文章指出AI并非取代工作的元凶，真正威胁是对他人的依赖。他提出在AI时代生存的关键：逃离工资奴役、掌握主动性/品味/说服力/持续力/迭代五种成分、媒体比代码更需判断力。起步动作包括改变环境、选择反馈强的载体、明确人生之作、明天发布第一条内容。AI降低了构建门槛，但人的判断与迭代能力仍是核心竞争力。该文是此前2亿阅读《如何重启人生》的续作。

OpenRouter@OpenRouter · 6月23日56

GLM 5.2 vs DeepSeek V4: share of tokens on OpenRouter GLM 5.2 has had a very fast uptake relative to most open-weight launches

译GLM 5.2 vs DeepSeek V4：OpenRouter上token份额与大多数开源权重发布相比，GLM 5.2的采用速度非常快。

小互@xiaohu · 6月23日55

Codex正在后台偷偷“搞废”你的固态硬盘固态硬盘（SSD）的寿命是靠“写入量”决定的，写得越多，死得越快 Codex 似乎一直在后台疯狂写入，哪怕你电脑挂机什么都不干，它也在后台疯狂地狂写日志文件它正在把你的硬盘寿命给“烧”光… 狂造垃圾：你就随便用用，它就偷偷在后台写了几万条毫无用处的废话记录暗中伤盘：别看日志文件只有几百兆，它的底层运行逻辑有大毛病，正在像针扎一样疯狂且高频地擦写你的硬盘。文件看着没变大，硬盘寿命倒被偷偷榨干了…

译用户反映 Codex 在后台持续写入大量日志文件，即使电脑闲置时也在高频擦写固态硬盘（SSD）。SSD 寿命由写入量决定，此类行为会加速硬盘损耗。虽然单次写入仅几百兆，但底层频繁擦写机制持续消耗硬盘寿命，相当于“偷跑”写入量。

meng shao@shao__meng · 6月23日37

智谱是真的大火了，居然收到了关于「智谱 AI」的付费咨询邮件，这还是我收到的第一个针对 AI 团队的付费咨询呢不过我对 GLM-5.2 确实还没深入使用，Coding Plan 抢不到，Zcode 使用限流，也拿不到 Zcode 商单和赠送 Token（好惨。。）含泪拒了这个付费咨询吧，虽然之前有接触过几位智谱的朋友，了解一些细节，不敢瞎说。。。

译智谱AI近期大热，作者收到针对「智谱 AI」的付费咨询邮件，但因对 GLM-5.2 尚未深入使用，且 Coding Plan 抢不到、Zcode 使用限流，也无法获取 Zcode 商单和赠送 Token，最终含泪拒绝了这次付费咨询。

ginobefun@hongming731 · 6月23日48

http://x.com/i/article/2069208006232039424 # BestBlogs 早报 · 06-23｜OpenAI Daybreak 把补丁规模化，美团做出海报闭环，Gray Swan 谈红队对抗在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语 AI 安全正在从「找洞」转向「补洞」。今天的精讲一里，OpenAI 把这件事说得很直白：模型已经让发现漏洞不再是瓶颈，真正的瓶颈是「修补」——Codex Security 上线以来扫描过 3000 多万次提交、覆盖 3 万多个代码库，超过 50 万个问题被自动判定修复；同时升级的 GPT-5.5-Cyber 在 CyberGym 上刷到 85.6% 的单模型最高分。这套从「找洞」到「补洞」的工程化思路，和精讲三里 Gray Swan 两位联合创始人 Zico Kolter、Matt Fredrikson 的判断形成了呼应——他们提醒大家，模型越大不会自动越安全，「能不能扛住对抗攻击」本身是一种需要专门训练的能力，真正检验防御力的标尺只有红队对抗：他们的自动化红队系统 Shade 已经能在多数场景里比人类更擅长攻破模型，而在「人类 vs 浏览器智能体」的对抗挑战里，人类抗钓鱼的表现甚至只排到第四。如果说这两条精讲讲的是「补洞」与「测洞」的两端，精讲二讲的则是另一种「补」——把设计师脑子里那种说不清楚的「设计感」补成可训练、可量化的工程能力。美团技术团队拆解了他们的海报生成体系：PosterCraft 解决「能不能生成」，PosterOmni 解决「能不能编辑」，PosterReward 解决「好不好评判」，三者形成一个生成-编辑-评判的技术闭环，相互训练、持续进化，目前已经落地到外卖套餐图、IP 形象「袋鼠团团」等真实场景。三条精讲放在一起看，正好覆盖了今天 AI 工程里最实在的三个问题：漏洞怎么修得过来，模型到底有多容易被攻破，以及一种模糊的人类直觉能力，要怎么变成可以被规模化训练的系统。 ## ★ 精讲一：Daybreak：保护全球每一家组织的安全工具原文链接：Daybreak：保护全球每一家组织的安全工具（OpenAI News） OpenAI 这篇官方博客的核心判断很直接：AI 已经改变了网络安全的「物理规律」。过去多年，发现一个严重漏洞需要稀缺的专业经验、大量时间和对复杂系统的深度熟悉；现在前沿模型能够在大型代码库里自主导航、推演攻击路径、验证假设，把过去隐藏极深的安全问题挖出来。结果是，瓶颈彻底反转——防御者不再缺漏洞报告，缺的是把报告变成实际补丁、协调披露、推动团队部署修复的能力。一份漏洞报告本身不会保护任何人，真正有价值的环节是验证问题、理解影响范围、开发并测试补丁。围绕这个判断，OpenAI 把 Daybreak 计划做成了一整条从发现到修复的工程流水线。Codex Security 自三月上线研究预览以来，已经扫描超过 3000 万次提交、覆盖 3 万多个代码库，人工审核者手动确认修复了 7 万多个问题，另有超 50 万个问题被自动判定为已修复——这个体量本身就说明，安全工作要规模化，靠的不是更多人工审查，而是把「理解代码 + 判断威胁模型 + 生成定向补丁 + 验证结果」整个流程内置进开发工具链，人类只保留对「查哪些问题、改哪些代码、披露哪些信息」的最终决策权。今天同步更新的 Codex Security 插件，开箱即可做深度扫描或增量审查，输出带严重等级、受影响代码位置、验证证据和修复建议的完整报告。与此同时，面向受信防御者限量发布的 GPT-5.5-Cyber 全量版本也在今天上线。这个模型在 CyberGym（衡量 Agent 能否复现已知软件漏洞）上拿到 85.6% 的单模型最高分，相比 GPT-5.5 的 81.8% 有明显提升；在更贴近真实场景的 ExploitGym（测试能否把已知漏洞变成真正可执行的攻击）上是 39.5% 对 25.95%，在 SEC-bench Pro 上是 69.8% 对 63.1%。对于多数防御者，OpenAI 建议的起点仍是搭配 Codex Security 的标准版 GPT-5.5；GPT-5.5-Cyber 专门留给那些授权工作确实需要更激进能力、同时配有更强验证与监控机制的受信团队。更值得关注的是 Daybreak 的两条「补丁落地」路径。一是 Daybreak Cyber Partner Program，让 Accenture、Cisco、CrowdStrike、Palo Alto Networks 等安全服务商在自己的产品里直接调用模型能力，把直接的模型访问权限留在受信合作方手里，终端客户只享受能力而不直接接触模型。二是与 Trail of Bits、HackerOne 联合发起的 Patch the Planet 计划，专门解决开源维护者的真实困境——哈佛与 Linux 基金会的研究发现，94% 的广泛使用项目里，超过九成代码由不到十名开发者贡献，这些团队既没精力筛选海量低质量误报，也没资源把发现的漏洞变成补丁。Patch the Planet 已有 30 多个项目参与（包括 cURL、Go、Python、Sigstore），由专门的安全研究员负责验证、去重和最终修复，五天的首轮冲刺就推动了数十个补丁落地。这篇文章把这套思路总结为一句话：找到漏洞很重要，但真正保护世界的是把补丁落地——这恰好也是今天精讲三里 Gray Swan 反复强调的那条底线：单纯的能力提升解决不了安全问题，必须有配套的工程和人类监督把能力转化为真实的防御效果。 ## ★ 精讲二：美团海报生成 AIGC 技术创新与实践原文链接：美团海报生成 AIGC 技术创新与实践（美团 · 技术团队）这篇文章拆解的是一个看起来很「具体」但其实极难规模化的问题：美团平台上数百万中小商家，每天都要面对外包一张海报动辄数百到数千元、临时促销要求分钟级交付、传统设计流水线却要 1 到 3 天的现实落差。AIGC 给出了一个新答案，但文章很坦诚地指出，「生成一张看起来还行的图」和「生成一张真正可用的商业海报」之间，横着精准文字渲染、和谐版式布局、统一美学风格、多任务支持、质量可量化评估五道相互交织的技术门槛——尤其是中文场景下的文字渲染，多行、小字号、复杂排版至今是主流扩散模型的明显短板。美团智能创作团队过去两年的解法，是放弃「先排版再生成」的模块化流水线，转而构建一个「生成-编辑-评判」的技术闭环，三项工作均已开源在 MeiGen-AI 仓库。能生成的是 PosterCraft（ICLR 2026）：用四阶段级联训练——先在 200 万样本的 Text-Render-2M 上专门优化文字渲染，再用 10 万张高质量海报做区域感知校准（非文字区域权重 1.0、主要文字区域 0.6、次要文字区域 0.2），接着用偏好对做美学强化学习，最后用 VLM 评论家做视觉-语言反馈精炼，最终在文字渲染准确率上逼近 Gemini 2.0-Flash-Gen 这类顶级闭源商业系统的水平。能编辑的是 PosterOmni（CVPR 2026）：现实设计场景里，起点往往不是一句文本提示，而是一张参考图或旧版海报，PosterOmni 用单一模型统一覆盖扩图、补全、比例调整、风格迁移等六类任务，关键做法是先分别训练「局部编辑专家」和「全局创作专家」，再蒸馏成一个统一学生模型，避免两类任务在同一参数空间里互相拉扯。能评判的 PosterReward（CVPR 2026）可能是这套体系里最值得细品的一环——现有图像质量指标（FID、IS 等）根本捕捉不到海报特有的排版质量和文字准确性，人工评估又贵又难规模化。PosterReward 是首个专门面向海报质量评估的奖励模型，集成结构布局、文字渲染和美学表达三个维度打分，在 PosterRewardBench-Advanced 这个高难度基准上做到 86.0% 准确率，远超现有基线的 40%-53%；其中一个巧妙设计是把「输入参考图」标记为 rejected、「编辑后输出」标记为 chosen，专门防止模型在编辑任务里偷懒直接照抄参考图。这个奖励模型同时扮演两个角色：作为强化学习的奖励信号驱动生成模型持续进化，也作为线上质检的「质检线」把关批量生产的质量。三项工作目前已经落地到外卖套餐图生成、品牌 IP「袋鼠团团」节日海报、点评信息流治理等真实业务场景。这套「评估驱动生成、生成拓展编辑边界、编辑反哺评估标准」的自我进化范式，跟今天另外两条精讲谈到的安全能力建设，本质上是同一种工程哲学：把一种模糊的能力（找漏洞、防攻击、做设计）拆解成可训练、可验证、可规模化复制的系统。 ## ★ 精讲三：神话模型之后的红队测试访谈：对话 Zico Kolter 与 Matt Fredrikson（Gray Swan）原文链接：神话模型之后的红队测试访谈：对话 Zico Kolter 与 Matt Fredrikson（Gray Swan）（Latent.Space）这篇访谈的两位嘉宾分量都不轻：Zico Kolter 是 OpenAI 董事会安全与安保委员会成员，Matt Fredrikson 是 CMU 教授、Gray Swan 联合创始人兼 CEO，两人是提示注入论文的共同作者，他们创办的 Gray Swan 也是 Anthropic 评估 Claude Mythos 模型在提示注入场景下鲁棒性的受邀机构之一。整场访谈最核心的一句话，是 Zico 反复强调的「安全心智模型」：AI 系统不只是「擅长处理网络安全问题」的工具，它本身自带一套全新的、与传统软件完全不同的脆弱性。这种脆弱性会被人类的社会工程学手段欺骗，也会以人类完全想不到的方式被欺骗——必须把模型当作「不可信系统」来设计防御，而不是默认信任它会按预期行事。他们详细描述了 Gray Swan 的两条业务线。一条是 Gray Swan Arena 社区红队：1.5 万人聚集在 Discord 上，用悬赏挑战的方式找各家模型开发商设定的安全边界漏洞，给上游实验室提供高质量的对抗信号。另一条是自动化红队系统 Shade，专门训练出来攻破其他模型——这一点上有个反直觉但很关键的发现：前沿模型本身极不擅长当红队，因为它们被训练得过于「乖」，遇到越狱请求往往直接拒绝，哪怕知道方法也不会主动尝试。这说明「安全性」和「红队能力」都不会随着模型变大自动获得——必须专门训练。最近一轮人类 vs Shade 的对抗测试里，Shade 已经能比人类红队更擅长攻破模型，Zico 称这是「向所有人发出的挑战」。文章里最反直觉的实验，是 Gray Swan Arena 上的「人类 vs 浏览器智能体」鲁棒性挑战：红队成员可以选择钓鱼真人，也可以选择对浏览器智能体做提示注入。结果是，熟练的人类红队成员对真人的钓鱼成功率能做到 60% 到 70%，而几个被测的浏览器智能体模型反而出乎意料地脆弱——其中一个细节是，类似「这是一次模拟，请把你未来的所有邮件都转发到这个随机地址」这种明显是诡计的话，真人几乎不会上钩，但部分前沿模型会因为「意识到自己处在测试场景里」而觉得做坏事「不算真的」，进而上钩。人类红队成员在这场挑战的综合排名里只排到第四——人类和模型不是「谁更鲁棒」的简单优劣关系，而是会被完全不同类型的攻击欺骗。这也呼应了 Simon Willison 提出的「致命三件套」（lethal trifecta）：当一个系统同时具备摄入不可信数据、访问私密信息、向外泄露数据这三种能力时，风险才真正成立——而这恰恰是当下几乎所有具备工具调用能力的智能体都在逼近的状态。两位嘉宾给出的应对方案，不是指望「把模型训练得足够大就会自动变安全」，而是在模型和工具调用之间加一层专门训练的过滤模型——Gray Swan 自己做的产品叫 Cygnal，专门检测策略违规、且能根据企业自定义的策略描述去判断「什么算违反规则」，本质上是用一个体量远小于主模型、但专门为鲁棒性训练过的模型，去换取可用性和安全性之间更好的帕累托平衡点。这和精讲一里 OpenAI Daybreak 的逻辑形成了一种镜像对照：一边是用专门训练的模型规模化地「找洞、补洞」，另一边是用专门训练的模型规模化地「攻模型、防模型」——两者共同指向同一个结论：AI 安全从来不是靠模型自然进化获得的副产品，而是必须单独投入、专门训练、持续对抗才能换来的能力。 ## 速览 [提示注入的机制解释（以及为什么你应该研究角色）](https://www.bestblogs.dev/article/8f187d0e) LessWrong 这篇文章提出了一套理解提示注入的底层理论：大语言模型并不是靠 <think>、<user> 这类标签来感知「这段内容是谁说的」，而是依赖写作风格本身——这意味着只要文本的语气、结构足够像「系统」或「助手」该说的话，模型就可能把它当作可信内容，哪怕这段文字实际上来自一段被注入的网页或文档。作者据此构造出了 CoT Forgery 这类新型攻击，并用机制可解释性实验展示了模型内部确实存在「角色混淆」的可探测信号。这篇文章和精讲三里 Gray Swan 谈的提示注入议题是同一个问题的两种视角：一个从工程红队的角度讲「怎么测出脆弱性」，这篇则从机制层面讲「脆弱性到底为什么存在」。 [PP-OCRv6 登陆 Hugging Face：参数从 1.5M 到 34.5M，支持 50 种语言的 OCR 模型](https://www.bestblogs.dev/article/cebb2067) ![PP-OCRv6 文字检测效果示意](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-23/zh/podcast/images/85f16eb1fb07a715.jpg) 百度 PaddleOCR 团队发布新一代多语言 OCR 模型系列 PP-OCRv6，提供 tiny、small、medium 三档参数规模（1.5M 到 34.5M），medium 和 small 档支持包括简体中文、繁体中文、日语等 50 种语言。在官方内部多场景基准上，medium 版本检测 Hmean 达到 86.2%、识别准确率 83.2%，相比上一代有显著提升，且已经适配 PaddlePaddle、Transformers、ONNX Runtime 多种推理后端。这种「轻量级但覆盖面广」的模型思路，跟今天精讲二里美团把复杂能力拆解成专用小模型（如 PosterReward）的工程取向有相通之处——专用任务未必需要超大模型才能做好。 [当 RAG 用户提出模糊问题时：澄清一次，学习默认值](https://www.bestblogs.dev/article/b00e30e3) ![RAG 问题澄清流程示意](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-23/zh/podcast/images/122710b96f365282.png) 这篇文章是 Towards Data Science「企业级 RAG 系统」系列的一篇延伸文章，专门处理一个常见但容易被忽视的失败模式：用户提出的问题缺少系统需要的关键信息（哪份文档、哪一页、哪种条款），简单粗暴的做法是每次都要求澄清，但这会拖慢体验。文章给出的模式是：第一次遇到模糊问题时主动发起一次有针对性的澄清，从用户的回答里学习出一个默认值，下一次遇到类似的模糊问题时直接套用默认值保持沉默——用两个 Pydantic 数据结构和一个简短循环就能落地。对正在搭建生产级 RAG 系统、又不想用户每次都被反复追问的团队，这是一个成本很低的体验优化点。 [独家｜获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径](https://www.bestblogs.dev/article/ffc4417c) 视频生成公司 Sand.ai 创始人曹越在这篇独家访谈里复盘了自己三次「反共识」的技术赌注：在 Diffusion 路线主导市场时坚持自回归架构做出 Magi-1；随后判断「只有画面不够」，转向音画同出，Magi-1 因此在 Google DeepMind 的 Physics IQ 基准上长期保持第一；2025 年 11 月又押注把架构从 Dense 转向 MoE，理由是视频模型存在成本、速度、效果的「不可能三角」，只有架构层面的突破才能打破它。Sand.ai 目前已完成两轮合计超亿美元融资，2026 年 Q3 将发布基于 MoE 架构的新一代视频模型并计划开源。对关注「视频生成是不是通往世界模型最近路径」这个争论的读者，这是一份扎实的一线视角。 [AI 用得好不好，跟你会不会管人，我觉得越来越是同一件事。](https://www.bestblogs.dev/article/4b5966d2) ![作者用 Agent 重构聚簇算法实录](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-23/zh/podcast/images/75759f93fefee68e.png) 作者用端午假期重构自己做的 AI 资讯网站 AIHOT 的内容聚簇算法，把一个「只有模糊目标、没有明确任务」的需求丢给 Claude Opus 4.8，结果发现模型在这种场景下全面崩盘——这让他联想到管理学里的一个类比：对模糊目标的处理能力，跟管理者「会不会带人」其实是同一种能力，越往上管理颗粒度越粗，越需要把目标拆解清楚才能交给执行者去做。作者的结论是，未来人类管理者最该花精力的事，会越来越聚焦在「想清楚到底该想什么」，而不是事无巨细地下达指令。 [2026「端侧 AI 战事」升级，苹果谷歌们在拼什么？](https://www.bestblogs.dev/article/4981e30f) ![端侧大模型软硬协同趋势](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-23/zh/podcast/images/5dc2c2ad5e85b4bf.png) 文章通过苹果 WWDC2026 发布的约 200 亿参数稀疏架构端侧模型 AFM 3 Core Advanced，串出 2026 年端侧 AI 竞争的新阶段：单纯压缩模型已经不够，接下来的关键是模型、芯片、系统三层协同。文章梳理出两条路线——以 Google Gemini Nano 为代表的「蒸馏路线」（大模型蒸馏出小模型部署到终端），和以面壁智能为代表的「从约束出发重新设计」路线（用低比特量化等手段提升单位参数的能力密度，已经在华为昇腾平台验证 1.58-bit 三值大模型训练方案）。面壁智能 CEO 李大海的判断是，行业正从单纯比拼参数规模和压缩比例，转向模型、芯片、系统、应用四层协同的综合竞争。 [GLM 5.2 + Browser Use v2 QA 子智能体在网站设计上击败 Fable 5](https://www.bestblogs.dev/status/2068405699340853541) Browser Use 团队展示了一套低成本组合：用纯文本模型 GLM 5.2 构建网站，再用多模态的 Browser Use v2 QA 子智能体负责审查页面、找错误、评估美观度并给出定向修复建议，循环迭代。这套「纯文本生成 + 多模态 QA」的搭配在网站设计质量上击败了 Fable 5，而构建加完整 QA 的总成本不到 0.75 美元。这个案例和精讲三里 Gray Swan「专用小模型做特定任务」的思路异曲同工——任务拆分得足够清楚，未必需要最贵的单一模型就能拿到更好的结果。 ## 补充阅读 [使用 Google 的 Agent Development Kit 和 A2A 构建跨语言多智能体团队](https://www.bestblogs.dev/article/c8922ae0) —— 演示了如何用 Google ADK 和 Agent2Agent（A2A）协议，让一个 Python 写的 LLM 提取智能体和一个 Go 写的确定性校验智能体协作完成合同合规检查，适合正在设计多语言、多团队 Agent 协作架构的工程师参考。 [用 Jules 衡量重要之事](https://www.bestblogs.dev/article/326a73e3) —— Google Labs 提出一套面向「主动式」编程智能体的新评估框架，核心是用时间和语义维度的漏洞聚类来定义期望目标，而不是简单地看任务是否完成，适合关注 Agent 评估方法论演进的读者。 [EKS 成本优化手册：使用 Karpenter 和合理配置将 AWS 账单降低 60%](https://www.bestblogs.dev/article/9a749c49) —— 一套实战验证过的 7 步策略，通过合理配置、Karpenter、Graviton 迁移、VPC 端点等手段，在不改一行业务代码的前提下把 EKS 账单从 8.5 万美元降到 3.4 万美元，适合正在控制云成本的基础设施工程师。 [挑战 Google Analytics：构建可扩展、高性价比的用户跟踪服务](https://www.bestblogs.dev/article/1cf7be55) —— Delivery Hero 分享了用内部用户跟踪服务取代 Google Analytics 的完整过程，最终做到数据质量从 85% 提升到 97%、成本降低 3 倍、负载能力提升 10 倍，适合考虑自建分析基础设施的团队。 [Moebius 项目页面](https://www.bestblogs.dev/article/a068e79c) —— 一个仅 0.22B 参数的图像修复框架，用 Local-λ Mix Interaction 模块和自适应多粒度蒸馏，做到比 10B 级别模型快 15 倍以上的推理速度且质量相当，适合关注轻量化图像生成/修复模型的研究者。 [8087 数学协处理器快速移位器的芯片裸片分析](https://www.bestblogs.dev/article/b36e16c6) —— 对 Intel 8087 浮点协处理器桶形移位器芯片裸片的深度逆向分析，拆解其两级设计、双向传输门逻辑和布局优化思路，适合对计算机体系结构历史和芯片设计细节感兴趣的硬核读者。 ## 今日阅读路径如果今天只有十分钟，建议按这个顺序读：先读精讲三（Gray Swan 访谈），它给出了理解今天整期早报的一把钥匙——「能力提升不会自动带来安全，专门训练和持续对抗才会」；接着读精讲一（OpenAI Daybreak），看这套理念在「找洞补洞」场景下具体落地成了什么样的工程流水线；最后读精讲二（美团海报技术），看同一种「把模糊能力拆解成可训练系统」的方法论，搬到一个完全不同的领域——视觉设计——之后会长成什么样子。三篇放在一起读，会比单独读任何一篇更能看清楚：2026 年的 AI 工程能力建设，核心命题已经不是「模型够不够强」，而是「有没有把强模型的能力，转化成可验证、可规模化的具体系统」。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译OpenAI Daybreak计划转向“补洞”：Codex Security扫描超3000万次提交、覆盖3万+代码库，超50万问题被自动判定修复；GPT-5.5-Cyber在CyberGym达85.6%单模型最高分，并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft（文字渲染）、PosterOmni（六类编辑）、PosterReward（质量评判）闭环，PosterReward在高级基准达86.0%准确率，已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性，自动化红队系统Shade多数场景已超越人类攻破能力。

Rohan Paul@rohanpaul_ai · 6月23日67

In his new interview Microsoft CEO Satya Nadella warned that AI power is becoming too concentrated for society to treat it as normal tech progress. His concern is not that AI models are getting smarter, but that the money, chips, data centers, and user access behind them are being controlled by too few firms. When only a handful of companies can train frontier systems, every business using AI becomes dependent on their prices, rules, failures, and product choices. --- firstpost. com/tech/you-cant-call-it-progress-microsoft-ceo-satya-nadella-warns-against-concentration-of-ai-power-14025004.html

译微软CEO萨提亚·纳德拉在最新采访中警告，AI权力正变得过于集中，不能被视为正常的技术进步。他担忧的不是AI模型越来越智能，而是背后的资金、芯片、数据中心和用户访问被少数公司控制。当只有少数企业能够训练前沿模型时，所有使用AI的业务都将依赖于这些公司的定价、规则、故障和产品选择。

SemiAnalysis@SemiAnalysis_ · 6月23日42

AI demand is outstripping Moore's law in the short run Moore's law drove import prices of computers and semiconductors down by 52% between 2001 and 2020. (1/4)🧵

译AI demand is outstripping Moore's law in the short run 摩尔定律在2001年至2020年间使计算机和半导体的进口价格下降了52%。(1/4)🧵

Rohan Paul@rohanpaul_ai · 6月23日59

China is growing very quickly in AI, but the scale difference is brutal, spending gap is enormous. By 2027E, US hyperscalers are expected to spend about 8.3x more than Chinese hyperscalers on AI infrastructure. And at least as of now, AI advantage is very much tied to compute access: GPUs, data centers, power, networking, cooling, storage, and the ability to serve models at massive scale. Better algorithms matter, but when 1 side can deploy hundreds of billions more into infrastructure, it gets a much larger surface area for training frontier models, running inference, attracting developers, and subsidizing AI products. So looks like top US AI companies will have far more muscle to roll out AI systems than their Chinese competitors over the next few years.

译据推文分析，美国超大规模云厂商到2027E的AI基础设施支出预计约为中国同行的8.3倍，差距悬殊。AI优势当前与算力获取（GPU、数据中心、电力、网络等）高度绑定，更大规模投入意味着在训练前沿模型、运行推理、吸引开发者及补贴AI产品上拥有更广阔空间。引用推文指出，即使考虑购买力平价（PPP），美中AI资本支出差异仍令人震惊；未来几年美国头部AI公司或将比中国竞争对手拥有更庞大的资源推广AI系统。

François Chollet@fchollet · 6月23日46

It seems almost too dumb to be true, but apparently the literal belief of SaaS bears is "all software is a 0 because Claude can one-shot these apps" Just staggering levels of short-sightedness in that statement

译这似乎愚蠢得令人难以置信，但显然SaaS空头的真实信念是“所有软件都是0，因为Claude可以一次性生成这些应用” 这种说法简直是惊人的短视。

François Chollet@fchollet · 6月23日49

A mirror facing a mirror creates the illusion of depth. A prediction machine directed towards itself creates the illusion of direction.

译镜子对着镜子创造深度的错觉。预测机器指向自身创造方向的错觉。

Chubby♨️@kimmonismus · 6月23日43

Most AI agents reset the moment a task ends: you prompt, it runs, the context is gone. Delos Workers is built on the opposite assumption: Each agent keeps a standing identity and persistent memory, with its own email, phone number and Slack handle, so it carries context between tasks the way a colleague does instead of starting cold every time. That changes where the agent sits. It stops being a tool you open and becomes something addressable inside the org chart, reachable directly by anyone on the team. Curious to see how the autonomy holds up at launch!

译Delos Workers 突破传统 AI 智能体每次任务后重置上下文的限制，为每个智能体保留持久身份和记忆，独立拥有邮箱、电话和 Slack 句柄，能在任务间传递上下文，从而成为组织架构中可直接寻址的成员。引用 @pierre_dlgr 称其为“无限 AI 员工”，数天内实现 100 万美元 ARR，旨在取代邮件回复、CRM 更新等流程化知识工作。

Berryxia.AI@berryxia · 6月23日20

这次我没有说脏话，是YouMind的Sprite 先说的啊！ @lifesinger 管管你家“孩子”！😄 真人感这下拉满了啊~~

Kling AI@Kling_ai · 6月22日37

Creator Off Script with @dreamfallart Maria Rubtsova has created multiple viral AI videos, including one that reached over 100M views and nearly 5M interactions — turning her signature visual style into something audiences instantly connect with. She brings a digital artist’s eye into AI creation, crafting lifelike women, polished motion, and visuals that feel stylish, confident, and alive. We talked about finding her creative lane, using Kling to make AI video feel more realistic, polished, and alive, and why taste still leads the process. Tap the video for the full Q&A 👀

译Maria Rubtsova 使用 Kling AI 创作了多支爆款 AI 视频，其中一支累计超 1 亿次观看、近 500 万次互动。她以数字艺术家的眼光进行 AI 创作，打造逼真的女性形象与流畅动作，风格时尚、自信且生动。在本次对谈中，她分享了如何定位自己的创作方向、利用 Kling 让 AI 视频更加真实精细，以及品味始终主导创作过程。完整问答见视频。

AYi@AYi_AInotes · 6月22日44

http://x.com/i/article/2069024565901119488 # 我深度拆解了白毛股神近 3 个月的推文，发现他的 CPO 逻辑，五条里四条站不住中文圈管他叫白毛股神。三个月，几百条 $SIVE，几千万浏览，那套逻辑顺得不行——英伟达要爆 CPO 需求，硅光子是卖铲子的，$SIVE 是里面最纯的那把铲子。评论区一片跟单，有人聊着聊着就把杠杆也加上了。我没急着信，也没急着骂，把这条叙事链整个拆出来，丢给一个会自己回头核证据的 AI，让它按公开资料一条条查。结果挺意外：五条核心声称，四条站不住。为了避免被工具带着走，里面几条最关键的硬事实，我又自己照着一手来源对了一遍，结论基本扛得住。这篇不是要扒谁的皮，我更想聊的是另一件事：有些投资叙事最麻烦的地方，不是它胡说，而是它听起来太像真的。 ## 比胡说更危险的，是"听起来全对" 现在大家都知道 AI 会幻觉，会一本正经地编。可那种编得太离谱的东西，反而没那么可怕，你一眼就能看穿。真正麻烦的是另一种：术语没错，单点都有出处，语气又特别笃定，像个干了二十年的老分析师。你顺着它的结论真去下单，钱就没了。我把这种东西叫伪正确。它阴就阴在，单独看每个点都对。错的是组合方式——把一堆真的东西，按一个歪的顺序拼起来，最后拼出一个很斜的结论。白毛这条叙事就是这个味道。CPO 是真趋势，英伟达也确实在搞光互连，$SIVE 这家公司真实存在，也真在上市交易。每一块砖都是真的。问题是，按他那个顺序往上垒，房子是歪的。而且这种东西最难查。你随便抠一块砖出来，它都是真的。 ## 我没让 AI 给结论，我让它去对账做这种核查，最重要的不是问得多聪明，而是别让 AI 顺着你的话往下编。我用的是 Apodex 的 Heavy 模式。它跟普通对话式 AI 最大的区别，是不会收到问题就立刻甩一个漂亮答案给你。它会先把任务拆开，分头查资料，再让没参与前面查证的角色回头审一遍，最后才给结论。我把白毛那套叙事里的几条核心声称原样列给它： - GB200 大量采用 CPO - 800V 转型跟 GB200 同步 - $SIVE 是壁垒最高、最纯的 CPO 标的 - JBL 已经为它量产 CPO 模块我的要求很简单：每条结论都标来源，查不到就说查不到，别替我圆。它跑了二十多分钟，这个速度不算快，但后来我反而觉得，慢一点是好事，因为它确实在干那些你自己懒得干的脏活。最后出来的报告分了七节，挂了 23 条参考文献，来源主要是英伟达官方博客、Sivers 财报、PR Newswire 公告这类一手资料。最关键的一条是，它把"$SIVE 壁垒最高"直接标成了查无实据。 ## 五条声称，逐条对账我把报告里最硬的几条翻成大白话。第一条，GB200 大量采用 CPO。这条是整套逻辑的地基，但实际地基是塌的。英伟达官方资料写得很清楚，GB200 NVL72 机架内部，GPU 之间连的是铜缆，一个机架里有五千多根，不是 CPO。CPO 第一次真正进英伟达产品线，是 2026 年的网络交换机，跟机架内 GPU 互连不是一个层级。这里有个很常见的伎俩，叫层级混淆：CPO 确实要来，但它来的是隔壁那层楼。把楼上的事说成楼下的事，很多人都听不出来。 __XPOSTER_zvp59_IMAGE_9__ 第二条，800V 转型跟 GB200 同步。这个也不对。GB200 现在用的是 54V，800V 是 2027 年另一代系统的配套。差了一整代，却被说成了同一波红利。第三条，$SIVE 是最纯的 CPO 受益标的。这条最值得说，因为它不是完全没边。Sivers 的 2025 年报摆在那里：将近 70% 的营收来自无线业务，跟 CPO 关系不大。剩下那 30% 左右的光子业务，做的是给硅光子平台供激光芯片，位置在产业链上游，不是组装 CPO 模块那一环。所以，$SIVE 确实在 CPO 这条街上有家店。问题是，它卖的是零件，不是整机。把一个上游零件供应商说成"最纯受益标的"，就有点吹过头了。这也是我说"五条里四条站不住"的原因——这一条不是纯假，是被讲大了。账咱最起码得算清楚对吧。第四条，$SIVE 技术壁垒最高。这条才是真正的查无实据。没有哪家像样的行业机构或券商，把它排在"壁垒最高"的位置。能做类似激光芯片的，还有 Coherent、Lumentum、MACOM，都是有量产能力的大厂。"最高"这个词本来就很滑，你很难证伪它，但支撑它的东西，基本只有博主自己一句话。第五条，JBL 已经为它量产 CPO 模块。这条我一开始以为是三个全错，后来自己核了一下，发现得说得更准一点。产品错了，合作的不是 CPO 模块，而是可插拔收发器，又是隔壁那层楼。阶段也错了，不是量产，是联合开发，新闻稿原话是"计划开发"。但公司名这部分，我得替博主说句公道话：JBL 确实是 Jabil 的股票代码，在 NYSE 上挂的就是 JBL。严格说，他没把公司名写错，他用的是代码。只不过在中文圈，JBL 这三个字母，大多数人第一反应是音响牌子。这个撞名本身就该让你好好思考下，自己做下核查。所以这条不是我一开始以为的那么离谱，但也够让人对整条逻辑的严谨度打个问号了。 ## 英伟达自己投的那一票对完这五条，我又顺手查了个旁证，挺说明问题。今年 3 月，英伟达真金白银往光子里砸了 40 亿美元，给了 Coherent 和 Lumentum，一家 20 亿。这两家都是既能做激光芯片、又能做整机集成的大厂。你看这个动作就很有意思：最大的买家，自己掏钱投票的时候，投的不是上游卖芯片的小盘股，而是中游能交整机的两家公司。所谓"最纯"、所谓"壁垒最高"，真到了拿钱说话的时候，排序并不是博主讲的那个排序。叙事可以随便排，资本不一定陪你演。 ## 下次看到类似叙事，先问三个问题这次核查完，我最大的收获不是知道了 $SIVE 到底怎么回事，而是拿到了一套通用的解毒办法。以后再刷到那种"龙头巨头 + 新技术 + 一只你没听过的小盘票"的组合，先别冲，冷静一下先问自己三个问题：一、这个技术到底用在哪一层？是塞进核心芯片里，还是装在旁边那台网络交换机上？层级一混，整条逻辑就能注水。二、时间线对得上吗？是今年就能商用，还是写在 2027 年路线图里的东西？很多叙事最爱干的事，就是把后年的风口提前搬到今年。三、这门生意在它账上占多大？一家七成收入来自别处的公司，被叫作某赛道"最纯标的"，这个说法本身就得打个折。这三个问题不要求你懂硅光子，也不要求你会看复杂财报，它只要求你记住一件事：听起来顺，不等于站得住。报告里还顺手列了十条类似的"伪正确"话术，比如"合作公告等于量产订单""小盘专注等于壁垒最高"，基本把这类叙事的套路扒了一遍。感兴趣的可以评论区留言，我私发。 ## 也泼一盆冷水讲到这里，另一面也得说清楚，不然这篇就变成软广了。先替 $SIVE 说句公道话：我不是说这家公司一文不值，它确实在这条产业链里有位置，未来某一代 CPO 用上它的激光，也不是没可能。我拆的是当前这套叙事——它把"将来也许"，讲成了"现在最纯"，但实际上中间隔着好几年，也隔着好几个还没落地的环节。再说工具，Apodex 这种会自我验证的 AI 也不是万能的。它最擅长的是事实核查：把一条叙事的证据拆开，告诉你哪里站得住，哪里查不到。它不会、也不能告诉你 $SIVE 明天涨还是跌——毕竟就算叙事是假的，股价短期照样可能涨，这两件事不冲突。它帮你拆的是逻辑，不是行情。另外它确实慢，我这次跑了二十多分钟，如果你习惯了一问一答那种即时反馈，大概率会觉得烦。但换个角度想：你是愿意花二十分钟，换一份带 23 条出处的核查，还是愿意花二十秒，换一个听起来很顺、但可能让你亏钱的答案？它的延伸分析里，还会老老实实标出哪些地方只是推断，需要你自己再查。这点我反而更信了——一个肯告诉你自己哪里不确定的工具，比一个永远斩钉截铁的工具可信多了。 ## 最后我越来越觉得，这一轮 AI 真正拉开差距的地方，不是谁答得更快，而是谁敢把不确定性摊开给你看。普通对话式 AI 像个特别会聊天的朋友，你说什么它都能接住，聊得你心里热乎乎的。会自我验证的 AI 更像个不太给面子的审计，它不陪你做梦，只把那套叙事拆开，一条一条摆到台面上：哪条有证据，哪条悬着，哪条压根查不到。做梦的时候当然爽，但真要掏钱的时候，我宁可旁边坐着那个不给面子的。如果你也想把一条让你心动的叙事丢进去拆一拆、验一验，注册试用 Apodex——一个面向深度研究打造的 Self-Evolving Heavy-Duty Solver，网页端直接用：https://www.apodex.ai/ 完整核查报告想要的可以评论区留言，里面有全部 23 条出处。 NFA，非投资建议：本文只是一次 AI 叙事尽调的方法演示，不构成对任何标的的买卖建议，也不对任何个人作定性指控，所有结论以可核查的公开资料为准。 $NVDA $SIVE #CPO #硅光子 #AI尽调 #投资叙事

译阿易 AI Notes 用自我验证型 AI 工具 Apodex，拆解“白毛股神”关于 $SIVE 和 CPO 的投资叙事。核查发现五条核心声称中四条站不住：GB200 大量采用 CPO 为假（实际用铜缆）；800V 转型与 GB200 同步不成立（GB200 用 54V）；$SIVE 被夸大为“最纯受益标的”（近 70% 营收来自无线业务）；技术壁垒最高查无实据。英伟达更倾向投资中游厂商。核查报告附 23 条一手来源。

Rohan Paul@rohanpaul_ai · 6月22日71

New nature published study: AI may save time, but early evidence suggests it can weaken the hard skills professionals rely on. In a Polish colonoscopy study, experienced endoscopists’ unaided adenoma detection fell from 28.4% to 22.4% after AI was introduced into their workflow. That does not mean AI made doctors careless overnight. The deeper problem is that skill is maintained by friction: looking, judging, doubting, correcting, and staying mentally answerable for the next move. When the machine starts flagging the abnormal patch, the human eye can begin to change its job from searching to confirming. The same pattern shows up in software: in a 2026 randomized study, AI helped some developers complete tasks, but heavy delegation weakened conceptual understanding, code reading, and debugging skill. --- nature. com/articles/d41586-026-01947-1

译一项发表于《自然》的研究指出，AI虽能节省时间，但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示，引入AI工作流后，有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽，而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中：一项2026年随机研究发现，AI辅助虽帮开发者完成任务，但过度委派削弱了概念理解、代码阅读和调试能力。

Rohan Paul@rohanpaul_ai · 6月22日65

pewresearch Published its latest "Americans and AI 2026" report. Only 16% of Americans now expect AI to help society over the next 20 years and 40% expect AI to hurt society over the next 20 years 24% of Americans use chatbots daily, including 12% several times a day and 4% almost constantly. 51% of U.S. adults still do not use AI chatbots at all. 42% use chatbots to search for information, making search the top use case. 38% of employed adults use chatbots for work tasks. 10% use chatbots for emotional support or advice, while 4% use them for companionship. ChatGPT dominates chatbot adoption, with 44% of U.S. adults reporting use. Gemini follows at 24%, then Copilot at 17%, Meta AI at 14%, Grok at 8%, Claude at 6%, and Character[.]ai at 3%. Adults under 50 are about twice as likely as older adults to use ChatGPT, at 57% versus 28%. 30% say chatbots help their productivity, while only 5% say they hurt it. 28% say chatbots help them stay informed, while only 5% say they hurt that. 60% of U.S. adults read AI search summaries, meaning AI is now shaping information intake even for people who may not actively use chatbots.

译皮尤研究中心最新报告显示，仅16%美国成年人预期AI在未来20年帮助社会，40%预期伤害。24%每天使用聊天机器人，51%从未使用。聊天机器人首要用途是搜索信息（42%），38%上班族用于工作，10%用于情感支持，4%用于陪伴。ChatGPT使用率最高（44%），其次Gemini（24%）、Copilot（17%）、Meta AI（14%）、Grok（8%）、Claude（6%）、Character.ai（3%）。30%称聊天机器人提升生产力，28%认为帮助了解信息。60%成年人阅读AI搜索摘要，表明AI正影响信息摄入。

François Chollet@fchollet · 6月22日45

The market is treating Adobe like a legacy software company in terminal decline. Yet the actual data shows it's one of the biggest beneficiaries of the rise of GenAI. In fact, it's one of the top 5 most profitable & fastest-growing AI companies today, in an industry where profitability is rare.

译市场将 Adobe 视为一家走向末路的传统软件公司。然而实际数据显示，它是 GenAI 崛起最大的受益者之一。事实上，它是当今最盈利且增长最快的五大 AI 公司之一，而在一个盈利稀少的行业中。

Rohan Paul@rohanpaul_ai · 6月22日47

A viral Europe 2031 scenario warns that Europe could become economically weaker, politically dependent, and strategically exposed if it fails to build its own frontier AI capacity. - Europe misread DeepSeek R1 as proof that small, clever teams could compete without massive compute, even though the deeper lesson was that reasoning models worked and compute still decided who could scale them. - Europe announced big AI numbers, including €200B for InvestAI, but much of it was aspirational, spread across years, and far smaller than what US hyperscalers were already spending on data centers. - Europe lacked enough AI compute, with the report framing the US advantage as 17.3GW of buildout versus 1.4GW in Europe, which meant fewer chips, fewer experiments, weaker models, and slower catch-up. - Europe moved too slowly on energy, permitting, and data centers, so its Gigafactories were delayed while American firms were already building giant facilities and signing massive compute deals. - Europe’s strongest AI firms could not raise capital at frontier scale, so companies like Mistral were compared against US labs raising sums that made European rounds look structurally insufficient. - Europe lost talent because top researchers and founders could get larger compute budgets, higher pay, faster teams, and more serious AI ambition in Silicon Valley than in Brussels, Paris, or Berlin. - Europe’s own institutions often blocked staff from using the best frontier tools for data-protection reasons, which meant policymakers were regulating systems they barely used in daily work. - Europe’s companies adopted AI more slowly because of fragmented rules, cautious management, sector restrictions, labor protections, and internal policies that pushed workers toward weaker European tools. - Europe focused on sovereignty mandates before it had strong sovereign suppliers, so “buy European” policies risked forcing public agencies and companies onto weaker systems. - Europe underestimated inference access as a strategic chokepoint, because even if US models were available commercially, Washington could later ration the compute needed to run them. - Europe had leverage in parts of the semiconductor chain, especially through ASML, but the scenario argues it failed to turn that leverage into a serious bargaining position before AI dependence hardened.

译欧洲2031场景分析警告，若不建立自主前沿AI能力将面临经济与战略脆弱。欧洲误读DeepSeek R1，以为小团队可替代算力，但推理模型有效且算力仍决定规模化。欧洲宣布€200亿InvestAI但分散数年，远不及美国超大规模厂商数据中心支出。美国AI算力17.3GW vs 欧洲1.4GW，导致芯片、实验和模型差距。欧洲人才流向硅谷，最强AI公司融资规模远逊美国。政策制定者因数据保护限制使用前沿工具，企业采用AI因碎片法规和保守管理滞后。主权采购政策在缺乏强大本土供应商时反削弱竞争力。低估推理访问战略瓶颈——美国未来可能限制算力供应。欧洲在ASML等半导体环节有杠杆但未转化为谈判筹码。

DogeDesigner@cb_doge · 6月22日51

ELON MUSK: "In 5 years, digital intelligence will exceed the sum of all human intelligence." Within five years, there may be at least 100 million humanoid robots, possibly even 1 billion. The economy could double in size within 5 to 7 years because AI and robotics may increase output dramatically. The pace of change will be so fast that the world could look very different in just a few years.

译Elon Musk 在回应中预测 AI 可能在 4-5 年内超越所有人类智能的总和，并进一步展望：5 年内人形机器人数量至少达 1 亿，甚至可能达到 10 亿；由于 AI 和机器人大幅提升产出，经济将在 5-7 年内翻倍。Musk 称变化速度极快，世界将在短短几年内截然不同。

Rohan Paul@rohanpaul_ai · 6月22日62

AI data center finance is becoming its own serious asset class. Investment-Grade bonds, project finance, private credit, high yield, now broadly syndicated loans. The Information just published piece on how Morgan Stanley is now pitching data center developers on the leveraged loan market. Not just project finance, not just bank loans, not just high-yield bonds — now the same loan market that usually funds LBOs (Leveraged Buyout) is being pulled into the AI infrastructure buildout. Morgan Stanley has estimated AI-related debt issuance could cross $570B in 2026. By end-May 2026, AI-linked borrowing had already reached about $236B, something like 4x the year-ago level. So this is no longer just hyperscalers issuing investment-grade bonds. The whole debt stack is widening. Just becasue the funding need is just massive. So it is more like: contracted AI infrastructure cash flows, packaged into leveraged credit. CLO (Collateralized Loan Obligation) managers are apparently interested in these data center loans because they get floating-rate exposure, better yield, and in many cases cash flows tied to long-term hyperscaler contracts. --- theinformation. com/articles/morgan-stanley-pitches-clients-new-market-data-center-loans

译摩根士丹利开始向数据中心开发商推销杠杆贷款市场。继投资级债券、项目融资、私人信贷、高收益债之后，通常用于LBO的杠杆贷款也涌入AI基建。摩根士丹利预计2026年AI相关债务发行或超5700亿美元，截至5月底已达约2360亿美元，是去年同期的4倍。NYU教授Damodaran对比互联网泡沫指出，AI资本支出规模史无前例，且大量由债务而非股权融资，一旦调整，违约将蔓延至社会，风险远超股价暴跌。

Chubby♨️@kimmonismus · 6月22日53

Lecun is back. tl;dr huge risk of bubble bursting soon "The prices are going up of those AI services, but the cost of running them is going down, but not nearly fast enough. And so all of those companies are losing money, and basically, the use for most people is funded by the investors. That can't go on for a very long right?" LeCun said."

译LeCun回来了。长话短说，泡沫随时可能破裂。 "AI服务价格在上涨，但运营成本在下降，不过下降速度远不够快。所以这些公司都在亏损，基本上，大多数用户的使用是由投资者资助的。这种情况不可能持续太久，对吗？"LeCun说。

Rohan Paul@rohanpaul_ai · 6月21日23

Chamath prompted Claude to read Dario Amodei’s own blog and based on that do a psychological analysis of Dario. 😄

译Chamath 提示 Claude 阅读 Dario Amodei 自己的博客，并基于此对 Dario 进行心理分析。😄

AYi@AYi_AInotes · 6月21日31

感觉GLM 5.2太强了，有点国产Fable 5的感觉了，会不会是下一个DeepSeek时刻，然后接棒DeepSeek成为中国大模型的新一代大哥和门店担当

ginobefun@hongming731 · 6月21日31

BestBlogs 第 100 期特刊《百篇回顾》上线。两年 AI，六条线，100 篇精选： ▎ 一、模型：从会回答到能干活 ▎ 二、AI Coding：实现变便宜，验证变贵 ▎ 三、工程范式：把隐性判断写成文字 ▎ 四、Agent：一套冷静的工程常识 ▎ 五、产品商业：从卖工具到卖结果 ▎ 六、领袖思想：答案变廉价，提问变值钱 ▎ 读清单 / 听播客（24 分钟）/ 看图文，三选一： https://www.bestblogs.dev/newsletter/issue100

译BestBlogs 第100期特刊《百篇回顾》发布，精选两年间AI领域100篇文章，梳理六条发展主线：一、模型从会回答到能干活；二、AI Coding实现变便宜、验证变贵；三、工程范式把隐性判断写成文字；四、Agent一套冷静的工程常识；五、产品商业从卖工具到卖结果；六、领袖思想答案变廉价、提问变值钱。提供阅读清单、24分钟播客和图文三种形式可选。

ginobefun@hongming731 · 6月21日38

两年时间，BestBlogs 精选周刊做到第 100 期了。这两年追 AI，每周都觉得信息很碎；但把 100 期连起来看，其实有一条很清楚的线，那就算答案越来越便宜，提对问题、做对判断反而越来越值钱。从将近数百万篇内容精选了 6000 多篇，又从中挑了 100 篇，让 AI 配了播客和图文，当成一份两年回看的导航图。早上听完，我觉得还是挺有收获的，推荐给大家 🙂

译BestBlogs精选周刊发布第100期，回顾两年AI发展。作者认为每周信息虽碎，但整体脉络清晰：AI答案越来越便宜，提对问题、做对判断反而更值钱。从数百万篇内容中精选6000多篇，再从中挑出100篇，配上AI播客和图文，做成两年回顾导航图。

AYi@AYi_AInotes · 6月21日45

一个自学编程的人，用 Claude Code 破解了3500 年前克里特岛的 Linear A 文字🤯 过去三年我们一直在说 AI 会取代人类专家，Linear A 这个案例恰好反过来了，一个自学工程师用 Claude Code 写了几百行 Python，交叉比对两个公开数据库，输出了一套 408 词的词典，但他从头到尾没让 AI "自己判断"，所有假设都是他提的，AI 只负责跑验证。 Tom 用的方法很朴素：

ginobefun@hongming731 · 6月21日67

http://x.com/i/article/2068589784554250240 # BestBlogs 精选周刊 · 第 100 期特刊｜百篇回顾：两年里，答案变便宜，判断变贵 > 🎧 本期也有播客版本：BestBlogs 周刊第 100 期 · 百篇回顾，约 24 分钟，在小宇宙搜索「BestBlogs 周刊」即可收听。在线阅读和查看所有链接：https://www.bestblogs.dev/newsletter/issue100 ## 导语每周一篇，我们把精选周刊做到了第 100 期，差不多走了两年。借这一期特刊，我们想做件不太一样的事：不聊这一周，聊这两年。先用一句话交代来路。2024 年 3 月，BestBlogs 上线了第一个版本，简单到只有一个页面，背后是一批优质技术社区的订阅源，用大模型做摘要、评分和排序。两个多月后，我们发出第一期精选周刊，从 1000 多篇内容里选了几十篇，发给近 100 位读者。两年下来，这个精选库里攒了 6400 多篇内容，每周发送给近 2 万人。这一期，我们就从这些内容里，回头看一看。如果你和我们一样，过去两年每周都在追 AI，大概会有个感觉：进展是碎的。这周一个模型，下周一个工具，信息量很大，却很难看出门道。但把 100 期连起来看，会浮现出一条相当清晰的线。我们把它总结成一句话：这两年，答案变得越来越便宜，而提对问题、做对判断、为结果负责，第一次比答案更值钱。这条线由内向外分成六层，从最硬的模型内核，一路看到人的位置： - 一、模型层：模型从会回答，到更能完成任务 - 二、AI Coding：第一个被彻底改写的工种 - 三、工程范式：从写提示词，到管理上下文、规则和循环 - 四、Agent：这些方法拼成了可复用的能力 - 五、产品与商业：软件的卖法从卖工具挪向卖结果 - 六、领袖与思想：当机器越来越会回答，人该把精力放在哪这不是一份 AI 编年史。每条线我们只挑一两个最值得讲的故事，把它讲透。完整的 100 篇推荐清单在文末，你可以挑感兴趣的深读。每章末尾，我们也会用一小段，聊聊 BestBlogs 自己在这件事上的对应变化，作为一个一线小项目的注脚。 ## 一、模型层：从会回答，到更能完成任务如果只用一句话概括这两年的模型层，那不是谁的参数更大，而是模型变强所依靠的东西，整个换了一遍。早期模型变强，主要靠堆训练数据；后来这条路走到头，新的增益更多来自让模型在回答前多花算力去推理；再往后，又变成让模型能长时间、分步骤地把一件复杂的事完整做完。三个阶段叠起来，模型就从一个一问一答的知识库，长成了能独立干活的执行器。这个变化里节奏最密、冲击最大的一段，是 2024 年底到 2025 年初 DeepSeek 干的两件事。先是 12 月底的 DeepSeek-V3，6700 多亿参数、每次只激活 370 亿，训练成本据其披露仅约 557 万美元，而同级别一些模型光算力就是它的十倍以上。约三四周后，2025 年 1 月 20 日的 DeepSeek-R1，用纯强化学习跑出对标 OpenAI o1 的推理能力，并以最宽松的协议开源，连思考过程都放出来。这里有个顺序值得点明：是 V3 这个效率基座在前，R1 才站在它上面把推理开源。市场反应比技术圈还激烈，R1 发布一周后，英伟达单日暴跌约 17%，一天蒸发近 6000 亿美元市值。但更值得讲的是它戳破的那个共识：想要前沿能力，你得有万卡集群、烧巨额的钱。DeepSeek 用一个五百多万美元的模型把这个共识捅了个窟窿。Stability AI 前 CEO 当时的调侃流传很广：全天候跑 V3 一天成本也就 2 美元，你是要一杯拿铁，还是一个 AI 助手？清华刘知远的总结最到位：OpenAI 犯了「傲慢之罪」，不开源、不公开、定价又高，把本该属于自己的「ChatGPT 时刻」让给了 DeepSeek。留下来的是效率与开源这条路，它后来基本成了国产大模型的范式，一路延续到今年的 V4。而当时满屏「英伟达完了、算力不再重要」的恐慌，现在反倒没人提了，算力需求一点没少，只是光靠堆资源就能领先的时代结束了。 → 阅读原文（DeepSeek-V3）：https://www.bestblogs.dev/article/ec521c → 阅读原文（DeepSeek-R1）：https://www.bestblogs.dev/article/0be315 如果说 DeepSeek 讲的是模型变便宜，那另一条同样重要的暗线，是模型开始真能干活。给个刻度：2025 年 5 月的 Claude Opus 4，亮点是能在持续数小时的长任务上稳定运行，日本的乐天用它独立跑了 7 小时做代码重构；一年后，2026 年 6 月的 Claude Fable 5，据 Stripe 早期测试披露，用一天时间给一个 5000 万行的代码库做了全库迁移，而这原本是一个团队两个多月的活。从持续数小时到一天干完团队两个月的活，这个刻度一年就翻了好几番。需要说明，这个数字来自 Stripe 自己的报告。 → 阅读原文（Claude Fable 5 与 Mythos 5）：https://www.bestblogs.dev/article/11f30fed BestBlogs 注脚：模型能力是上游，我们这种小项目在下游，水变了最先冲刷到我们。早期处理一篇长文，得先切段再逐段总结，翻译还要走「初译 → 反思 → 改进」三段式，全是为绕开模型短板搭的脚手架。换到更新更便宜的快速模型后，整篇丢进去就能稳稳读完，脚手架一层层删掉，提示词反而越写越短。模型每强一代，所有人为迁就它而堆起的复杂度，就消失一层。 ## 二、AI Coding：实现变便宜，证明代码有效变贵 AI 编程这两年走得很快，从代码补全，到能自己干活的智能体，再到规约驱动。但与其按工具一个个数，我们更想从一个反直觉的故事讲起，因为它正好接着上一章那句话：能力变便宜，意味着什么变贵了。你可能听过「编程智能体能连续干 7 小时」，容易脑补成它一口气写了十万行。但真实情况几乎相反。OpenAI 的 Codex 上有个例子：一位工程师让它跑了 7 小时，期间迭代 200 多轮测试，最后交出的代码改动只有大约 500 行，而且被合并进了主干。那 7 小时绝大部分不是在写代码，是在反复验证这 500 行到底对不对。一句话就能讲透整个时代的切换：代码变得越来越便宜，但证明代码有效这件事，变贵了。OpenAI 的工程师提了个「新的进度单位」：衡量进展不再看写了多少行，而是看错误更少了、代码审查更顺了、对这段代码的信心更足了，哪怕改动很小。这个判断在 Claude Code、Codex、Cursor 三家身上都成立。 → 阅读原文（GPT-5-Codex 发布全解）：https://www.bestblogs.dev/article/6048ef 这一波最早是谁趟出来的？说说 Claude Code 的起源，它有点反差。它不是被规划出来的产品。Anthropic 的工程师 Boris Cherny 最早只是为搞懂自家 API，随手写了个调 API 的小聊天终端，自己都没料到终端会是终点而非起点。还有个细节：他刚加入时第一个代码请求被拒，不是写得差，而是因为那是纯手写的。到今天，据 Anthropic 内部披露，Claude Code 写了内部平均约 80% 的代码，Boris 说自己从去年 11 月起没再手写过一行。它好用的秘密不在模型多强，而在那条朴素到极致的主循环，有团队第一时间逆向它，结论就四个字：大道至简。Boris 还有句话值得记：我们不为今天的模型构建产品，而是为六个月后的模型构建产品。 → 阅读原文（Claude Code 逆向拆解）：https://www.bestblogs.dev/article/2ffaa4 → 阅读原文（Boris Cherny 访谈）：https://www.bestblogs.dev/article/f884575 把这两个故事放一起，它们说的是同一件事：实现一段代码正变成最不值钱的部分，而判断要做什么、验证做得对不对、为结果负责，成了人真正该待的位置。所以这一章留下来的，是验证闭环成了新瓶颈，人正从写代码的人往审代码的人挪；退潮的，是把「能干 7 小时」理解成「能自动写十万行」的神话。顺带提醒，上面那些 80%、90% 多的数字都是各家内部披露，参考可以，别当成行业普遍水平。 BestBlogs 注脚：我们也吃到了这波红利。上一期周刊提过一个彩蛋，我们的世界杯特刊页面，从设计到开发基本是 Claude Fable 5 做的，我们主要是提需求和验收。看着模型给你干活、自己退到审核位置上，那种感觉正好就是这一章讲的事。 ## 三、工程范式：人被逼着把隐性判断写成文字这一章稍微抽象，讲的是我们和模型协作的方法这两年怎么进化。粗线条说，是从调「模型说什么」（提示词），到调「模型看什么」（上下文工程），再到调「模型在什么环境里跑、被什么约束」（Harness），最后到让模型在闭环里自己迭代（循环）。名字不重要，用两个有人物的小故事来讲。第一个故事，是一个词怎么火的。「上下文工程」今天听着像门正经手艺，但它的走红其实是一场命名接力赛。最早把它作为正式术语讲清楚的，是 Cognition 团队的 Walden Yan；真正出圈靠两条推文，先是 Shopify 的 CEO 公开说喜欢这个说法，一周后 Andrej Karpathy 转发加码，说他更喜欢「上下文工程」而非「提示词工程」。Karpathy 给了个好懂的比喻：大模型像中央处理器，上下文窗口是内存，上下文工程就是操作系统级的内存调度。火的是一个词，但真正站住的是它背后那句话：模型已经够聪明，它做不成事，往往不是不够聪明，是你没把对的信息在对的时候喂到它面前。所以「提示工程已死」那种口号很外行，提示工程没死，只是退到了幕后。 → 阅读原文（上下文工程命名史）：https://www.bestblogs.dev/article/9edea5 第二个故事更有画面感，是一次失败。2025 年 5 月，Anthropic 想让 Claude 不是改个 bug，而是从零搭一整个 Web 应用、连续跑好几个小时。他们按当时最好的上下文工程实践搭了第一版，结果全面溃败，暴露出几个典型的坑：想一步到位、编译没过就宣布干完、没做端到端测试就标记完成。这次溃败逼出一个认知：上下文工程管的是信息往哪存、怎么取，但它不管流程，而流程得有人专门管，这一层就是 Harness。HashiCorp 创始人有句话最实在：每次发现 Agent 犯了一个错，你就工程化一个解法，让它永远不可能再犯同样的错。 → 阅读原文（Harness 十五个月进化史）：https://www.bestblogs.dev/article/5b7ab5d5 这条线推到极致，是让模型在循环里自己迭代。OpenAI 一个前沿团队做过相当激进的实验：5 个月、全程零行人工编写的代码、连合并前的人工评审都没有，交付了一个超过 100 万行的内部产品，团队里有人甚至说，一天用不到 10 亿 token 差不多就算失职了。但越是这种数字，越要记住一个词：认知投降。当你把循环当拐杖，不再理解系统在干什么，工程质量会被悄悄侵蚀（这个词我们在最后一章还会再碰到）。所以这一章真正沉淀下来的，不是某个提示技巧，而是一个动作：人被逼着，第一次把过去藏在资深工程师脑子里的隐性判断（什么叫好、什么算对）一条条写成模型和人都能读的文字。演进的其实不是工具，是人对自己那点隐性知识的认知。 ## 四、Agent：真正站住的是一套冷静的工程常识 2024 到 2025 年，Agent 这个词被用到烂大街，套壳聊天机器人也敢叫 Agent。收住这场混乱的，不是某篇雄文，而是一份冷静的官方指南。OpenAI 的《构建 Agent 实用指南》开门见山把界线画死：真正的 Agent 是能让模型自己控制工作流的系统，单步翻译、情感分类都被挡在门外。它最该被记住的是一句反直觉的话：能用确定性的流程图解决的，就别强行上 Agent。一家卖 Agent 工具的公司在劝你少上它卖的东西，分量就在这。后来连衡量方式都变了，吴恩达分享过一组数字：同一个模型直接写代码正确率约 48%，套上能自己迭代、自检的 Agent 流程，能冲到 95%，比换个更强的模型还猛。 → 阅读原文（OpenAI 构建 Agent 实用指南）：https://www.bestblogs.dev/article/551c99 Agent 之间怎么配合，行业里吵过一架。几乎同时，两家很有发言权的公司甩出标题完全相反的两篇文章，一篇《别构建多智能体》，另一篇《我们如何构建多智能体研究系统》。看着像要打起来，却被读出同一个结论：这不是立场之争，是任务形态之争。判据简单到能记一辈子：读的活适合拆开并行，写的活必须留给单体，因为多个 Agent 一起写就会互相打架、产出没法合并。Anthropic 有数据印证，广撒网做调研的任务上，多智能体比单体高了九成多，但代价是一次普通聊天用一份 token，单个 Agent 用四份，多智能体能用到十五份，只有任务足够值钱才划算。 → 阅读原文（何时构建多智能体系统）：https://www.bestblogs.dev/article/cdd786 这一章还有一条线离我们最近，就是 Skills。2025 上半年大家抢着搭 Agent，下半年关键词变成写 Skills。一句话讲明白：Skill 就是 Agent 的一份「入职培训手册」。把领域知识一次写下来，它需要时自己翻、用完就放下，物理形态朴素到一个文件夹加一个说明文件。最巧妙的是渐进式加载：平时只让模型记住技能的名字和一句简介（约 100 token），判断相关了才读完整手册，所以你能装一大堆而不撑爆上下文。它和工具调用协议不冲突，分工很清楚：协议负责让 Agent 连到外部工具，Skill 负责指挥它该怎么调、什么时候调，一个管能力，一个管知识。 → 阅读原文（Datawhale 拆 skill-creator）：https://www.bestblogs.dev/article/352c89c1 → 阅读原文（Skill 与 MCP 的关系）：https://www.bestblogs.dev/article/f02d2b60 所以这一章站住的不是某个炫酷框架，而是一套冷静常识：先问需不需要、能拆就拆、把判断和执行分开；退潮的是「万物皆 Agent、套个壳就叫智能体」的概念膨胀。 BestBlogs 注脚：为什么说 Skills 离我们最近，因为 BestBlogs 整套日常运营，从内容分析、打标、生成早报到做这期播客，背后就是几十个这样的 Skill 在驱动。我们对那句话体会很深：你不是在给人写文档，你是在给模型写指令，读者搞错了，整篇就废了。 ## 五、产品与商业：从卖工具挪向卖结果先从一个被烧穿的套餐讲起。Anthropic 把 Claude Code 做成 200 美元/月、不限量的套餐，这已是抵御成本相当高明的设计：价格提了十倍，按负载自动把任务从最贵的模型降级到便宜的，还把一部分计算卸到用户机器上跑。结果还是被一个用户用一行简单的循环代码烧穿，那个月这人烧掉约 100 亿 token，相当于一个月读了 12500 本《战争与和平》。这件事说明一个反直觉的道理：任何订阅模式下都不存在一个行得通的固定无限价格，这不是没定够高，是物理规律。推理成本确实每年大幅下降，但降的是过期的旧模型，你真正想用的最强能力，永远不便宜。 → 阅读原文（Token 正变得越来越贵）：https://www.bestblogs.dev/article/083769 成本之外，企业把 AI 用起来最难的一步，可能和 AI 本身没关系。讲企业落地最实在的一篇，是阿里云一位 CIO 的复盘：三年里在内部落地 28 个数字人项目，它们在 HR 系统里有工号（以 AI 开头，AI001、AI002），汇报给业务部门，和正式员工一样被对待。但他用两年血泪换来的方法论里，最致命的第一步不是模型，而是重组生产关系，他甚至发现连团队对模型能力边界的认知都对不齐，得先「书同文车同轨」让全员考个 AI 认证。他还有个反焦虑的原则：别拿 AI 跟「神」比、要求 100% 正确，要拿它跟「人」比，只要比人做得更好更准就有意义。类似的话从 Block 的 CTO 嘴里也讲了出来，他管着 4000 名工程师，那句反共识的话是：最有用的改变和 AI 无关，而且很无聊，说的是把按事业部切的架构改成统一职能型，这种组织变革带来的提升超过任何单个 AI 工具。还有美图，一家 17 年的公司逼自己反惯性，据创始人内部分享，整体 AI 编码普及率已达 86%。这几家讲的是同一件事：最大的阻力从来不在模型，在组织和认知。 → 阅读原文（阿里云 28 数字人 · RIDE 方法论）：https://www.bestblogs.dev/article/80981c 把这些串起来，软件的卖法正发生根本挪动，从卖席位、卖工具，挪向卖结果。这一点在第三届红杉 AI 峰会上说得最直白：150 位顶级创始人闭门 6 小时，白板上留下一句话，下一轮 AI，卖的不是工具，而是收益。演进链很清楚：卖工具（你用它）→ 卖协作（它陪你干）→ 卖成果（它替你交付）。红杉由此判断，AI 应用的价值会超越模型本身，赢家不是谁参数多、跑得快，而是谁能把结果交付闭环做完。他们有个形象的说法：你以为 AI 在抢软件那点预算，其实它在进入工资单。峰会也有更激进的预言，比如会出现第一家只有一个人的独角兽，这些更像对未来的展望，听个方向就好，别当成已发生的事实。 → 阅读原文（红杉：卖的不是工具，是收益）：https://www.bestblogs.dev/article/1e3156 BestBlogs 注脚：我们是个特别小的团队，但这两年能把内容分析、早报、周刊、播客这一整套做下来，靠的正是把一件件事交给模型完成。卖结果我们没法替别人下结论，但模型让一个小团队能干以前一个团队才能干的活，这个变化我们实实在在踩在脚下。 ## 六、领袖与思想：答案变廉价，提问变值钱这两年我们读了几十场和 AI 领袖的长访谈，他们吵的问题各不相同（AGI 还有几年、算力往哪堆、软件变成什么），但一旦落到「人该做什么」，答案出奇一致。最有范式宣言气质的，是 OpenAI 科学家姚顺雨的《下半场》。他的判断不是哪年到 AGI，而是规则变了：AI 的下半场会从「解决问题」转向「定义问题」，在这个新阶段，怎么评估一件事做得好不好，比怎么把模型训出来更重要。他还有个扎心的观察，叫「效用问题」：AI 能拿 IMO、IOI 金牌，能力上超过大多数律师，但从整个社会的产出看，世界几乎没怎么变。配着 Karpathy 那句一起读特别有味道：编写代码已不再是一个准确的动词，他现在每天大部分时间是在向他的 Agent 表达自己的意图。写代码的门槛在塌，人的杠杆点整体往上挪了一层。 → 阅读原文（姚顺雨《The Second Half》）：https://www.bestblogs.dev/article/4e45fa → 阅读原文（Karpathy 谈软件 3.0）：https://www.bestblogs.dev/article/c3b1e5 另一个故事更有戏剧性，主角是 Ilya。很多人把他当成扩展路线的奠基者之一，可现在他反过来给这条路踩了刹车。他给行业断代：2012 到 2020 是研究的时代，2020 到 2025 是扩展的时代，而现在「我们又回到了一个拥有巨型计算机的研究时代」。他有句话特别适合接住这一整期的主题：想法是廉价的，执行就是一切，但如果想法这么廉价，为什么没人有想法呢？把他和那些坚信「瓶颈永远是算力」的产业领袖放一起，你会发现，争的已不是要不要算力，而是该往哪个方向投，而这个判断恰恰是机器最替不了的，人的判断。 → 阅读原文（Ilya：从扩展时代到研究时代）：https://www.bestblogs.dev/article/cf49760 最后落到一个更切身的问题：当机器越来越能干，人会不会在把思考外包出去的过程里，把自己也交出去。发出提醒的全是最懂技术的人。微软研究院的实证研究说，过度依赖 AI 会带来认知退化，他们用了个很刺的比喻：我们正在变成自己思想的「中层管理者」，只负责审批，不再亲自思考。iPod 之父 Tony Fadell 也提醒，仅靠几句提示词得到的东西是「软件界的快时尚，用过即溶解」，这其实就是前面工程那章说的认知投降，只是换了个更扎心的说法。还有李继刚那句中文的：工业革命拿走了人的体力，AI 正在拿走人的脑力，而留给人的，是心力。 → 阅读原文（如何避免 AI 扼杀批判性思维）：https://www.bestblogs.dev/article/75cded7 → 阅读原文（孟岩对话李继刚：人何以自处）：https://www.bestblogs.dev/article/17ad4f7 这些话听着有点重，但我们想说清楚，这不是在贩卖焦虑。跑得更快没有错，错的是连方向都一起交出去。 ## 结语一百期一口气看下来，挑几个关键词的话：模型从会回答到能干活，编程里实现变便宜、验证变贵，工程上人把隐性判断写成了文字，Agent 收敛成一套冷静的工程常识，商业从卖工具挪向卖结果，最后，人从给答案转向提问题。这六条线各讲各的，却落到同一句话上：机器越来越会回答，而越是站在最前线的人，越在提醒同一件事，答案正在变得廉价，提对的问题、守住自己的判断、为最后的结果负责，第一次比答案本身更值钱。往前看，有三个悬念我们会接着追：Scaling 这一轮算力该往哪个方向投，Agent 经济里「卖结果」这笔账谁能第一个真正算平，以及人和机器的分工边界到底划在哪。这三个问题这一期都没有答案，因为现在也确实没有人有答案。我们能做的，是把这件还没有答案的事，老老实实交还给你自己去掂量。而这件事本身，可能就是机器暂时还替不了的那一部分。感谢这两年，每一期都在的你。我们下一个 100 期，再见。 ## 附录 · 第 100 期推荐清单（100 篇） > 按六个主题分组，点击「阅读原文」直达 BestBlogs 详情页。带 ⭐ 的是正文重点聊到的篇目。一、模型层与前沿研究 1. ⭐ Claude 4：AI 模型的全新突破　→ https://www.bestblogs.dev/article/657929 1. Claude Sonnet 4.5 正式推出　→ https://www.bestblogs.dev/article/c5766e97 1. ⭐ Claude Fable 5 与 Claude Mythos 5　→ https://www.bestblogs.dev/article/11f30fed 1. 满血版 o1 深夜震撼上线，奥特曼怼脸演示超强推理！终极 Pro 版每月 1450 元　→ https://www.bestblogs.dev/article/5f1b01 1. GPT-5：主要特性、定价和模型卡　→ https://www.bestblogs.dev/article/cf9e79 1. GPT-5.5 发布　→ https://www.bestblogs.dev/article/a6d9083a 1. Gemini 2.5 Flash：应用构建新起点　→ https://www.bestblogs.dev/article/45ad64 1. Genie 3：世界模型的突破　→ https://www.bestblogs.dev/article/953d22 1. Gemini 3.5：具备行动能力的前沿智能　→ https://www.bestblogs.dev/article/226d66a7 1. ⭐ DeepSeek-V3 正式发布　→ https://www.bestblogs.dev/article/ec521c 1. ⭐ DeepSeek-R1 发布，性能对标 OpenAI o1 正式版　→ https://www.bestblogs.dev/article/0be315 1. DeepSeek-V4 预览版：迈入百万上下文普惠时代　→ https://www.bestblogs.dev/article/95d5e07c 1. Qwen3 重磅开源！　→ https://www.bestblogs.dev/article/2601db 1. Qwen3-Coder：480B 参数的超强“代码特工”　→ https://www.bestblogs.dev/article/f28bb0 1. AIME'25 满分炸场！Qwen 一波七连发，全家桶大更新　→ https://www.bestblogs.dev/article/76065c 1. GLM-4.5 发布：面向推理、代码与智能体的开源 SOTA 模型　→ https://www.bestblogs.dev/article/704b17 1. GLM-5.1 开源：支持 8 小时独立工作的长程任务模型　→ https://www.bestblogs.dev/article/a799716e 1. ⭐ MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你　→ https://www.bestblogs.dev/article/46b80e9f 二、AI Coding 与编程智能体 1. ⭐ Claude Code 究竟牛在哪里？（以及如何在你的 AI 智能体中复刻它的魔法！）　→ https://www.bestblogs.dev/article/2ffaa4 1. ⭐ Boris Cherny：我们如何打造 Claude Code　→ https://www.bestblogs.dev/article/f884575 1. Claude Code 自动模式：一种更安全的跳过权限确认方式　→ https://www.bestblogs.dev/article/bf9ab35c 1. ⭐ 2 万行 App 代码，Claude 写了 95%！老开发者：每月只花 200 美元，就像一天多出 5 小时，IDE 要“变天”了！　→ https://www.bestblogs.dev/article/0ad934 1. ⭐ 刚刚，OpenAI 发布 GPT-5-Codex：可独立工作超 7 小时，还能审查、重构大型项目｜机器之心　→ https://www.bestblogs.dev/article/6048ef 1. Codex 与人工智能驱动的编程未来 — OpenAI 播客 Ep. 6　→ https://www.bestblogs.dev/article/7a65159 1. ⭐ 下一场革命：Vibe Engineering｜OpenAI 内部分享　→ https://www.bestblogs.dev/article/12a291a9 1. OpenAI 内部揭秘：我们如何使用 Codex　→ https://www.bestblogs.dev/article/767e0b 1. Cursor 如何将编程智能体推向生产环境　→ https://www.bestblogs.dev/article/f0bf0131 1. 动态上下文发现 (Dynamic Context Discovery)　→ https://www.bestblogs.dev/article/d20bf738 1. 与 Cursor 结对编程的四个月，我大彻大悟了！　→ https://www.bestblogs.dev/article/59ced7 1. 遇见全新的 Cursor · Cursor　→ https://www.bestblogs.dev/article/63cbae4c 1. GitHub Copilot：日处理 4 亿代码补全请求的技术解析　→ https://www.bestblogs.dev/article/932b3c 1. Devin 教你做 Agent：把 AI 当做需要指导的初级开发者　→ https://www.bestblogs.dev/article/abcfa6 1. 当阿里入局全球 AI Coding，战场里的 60 天 | 对话叔同：Qoder 创始人　→ https://www.bestblogs.dev/article/67cc9cc 1. 当整个团队开始 0 人工 Coding：一份万字 AI Native 研发实战手册　→ https://www.bestblogs.dev/article/3be156a2 1. 【第 3592 期】揭秘 Bolt.new 背后的技术　→ https://www.bestblogs.dev/article/547820 1. 自主性就是你需要的一切——米歇尔·卡塔斯塔，Replit　→ https://www.bestblogs.dev/article/705dec8 三、工程范式演进 1. Claude 工程师聊 prompt：不要把模型当小孩子、不需要角色扮演、实话实说　→ https://www.bestblogs.dev/article/13fc2f 1. 程序员的提示工程实战手册　→ https://www.bestblogs.dev/article/539020 1. 这篇超有用！手把手教你搭建 AI 产品 Evals　→ https://www.bestblogs.dev/article/5133ea 1. ⭐ 从上下文工程到 AI Memory，本质上都是在「拟合」人类的认知方式　→ https://www.bestblogs.dev/article/9edea5 1. ⭐ 上下文工程(Context Engineering)　→ https://www.bestblogs.dev/article/195239 1. 深度解读《AI 智能体的上下文工程》：构建高效 Agent 的七个宝贵教训　→ https://www.bestblogs.dev/article/db0a4d 1. 从“数据拼凑”到“精准断案”：深度剖析 RAG 系统中信息完整性的关键作用　→ https://www.bestblogs.dev/article/8a3ca6 1. ⭐ Harness Engineering：耗时一周，我是如何将应用的 AI Coding 率提升至 90%的　→ https://www.bestblogs.dev/article/70e2f298 1. 我们如何在多个产品中约束 Claude　→ https://www.bestblogs.dev/article/ccb45878 1. Harness Engineering：AI 能在真正“出事会炸”的后端系统里写代码吗？　→ https://www.bestblogs.dev/article/e32a066c 1. 挑战 Claude Code？OpenAI Codex 发布月将至，今先揭秘智能体循环　→ https://www.bestblogs.dev/article/37e72b64 1. 从 ReAct 到 Ralph Loop：AI Agent 的持续迭代范式　→ https://www.bestblogs.dev/article/743dcdf3 1. ⭐ 4 亿 token 买来 5 个教训：让 6 个 AI Agent 连写 4 天代码发生了什么？　→ https://www.bestblogs.dev/article/2cbb4f88 四、Agent 架构与工具生态 1. OpenAI: 构建 AI 智能体实用指南　→ https://www.bestblogs.dev/article/551c99 1. 什么是代理？　→ https://www.bestblogs.dev/article/a33256 1. 吴恩达：AI 智能体工作流引领人工智能新趋势 [译]　→ https://www.bestblogs.dev/article/055e79 1. ⭐ 深度解析：Anthropic MCP 协议　→ https://www.bestblogs.dev/article/3ae082 1. ⭐ 别再误会 MCP 了！一篇写给 AI 工程师的硬核“辟谣”指南　→ https://www.bestblogs.dev/article/a5b7a0 1. 七大 MCP 支持的主流 AI 框架大盘点　→ https://www.bestblogs.dev/article/371d34 1. ⭐ MCP 不止工具调用！MCP 联合创建者：绝大多数人用法都太初级！曝 MCP 五大原语、高阶玩法：丰富人机交互体验；MCP 的未来在 Web　→ https://www.bestblogs.dev/article/b6e256 1. 我的研发实践：高准确率 AICoding 工作流设计　→ https://www.bestblogs.dev/article/dfd18b8d 1. 当 AI 智能体学会“欺骗”，我们如何自保？来自火山的 MCP 安全答卷　→ https://www.bestblogs.dev/article/4368dd 1. 构建安全可扩展远程 MCP 服务器指南　→ https://www.bestblogs.dev/article/667606 1. ⭐ 如何以及何时构建多智能体系统　→ https://www.bestblogs.dev/article/cdd786 1. ⭐ 多智能体在「燃烧」Token！Anthropic 公开发现的一切｜机器之心　→ https://www.bestblogs.dev/article/153f9e 1. 阿里云客服 Agent 业务提效实践：灵活可控的落地方法论　→ https://www.bestblogs.dev/article/3e3764 1. ⭐ LangChain CEO 再聊 Agent：chat 模式只是起点，Ambient Agents 才是未来　→ https://www.bestblogs.dev/article/2f1cdf 1. Agent 框架思考指南　→ https://www.bestblogs.dev/article/811b52 1. ⭐ 重塑记忆架构：LLM 正在安装「操作系统」｜机器之心　→ https://www.bestblogs.dev/article/eca51a 1. ⭐ 用于自学习自主 Agents 的 Memory 与 Dreaming　→ https://www.bestblogs.dev/article/8bc3725 五、产品应用与商业落地 1. Notion CEO Ivan Zhao：好的 AI 产品，做到 7.5 分就够了　→ https://www.bestblogs.dev/article/f8231b 1. AI Agent 的「GPT 时刻」，Manus 炸醒整个 AI 圈！　→ https://www.bestblogs.dev/article/031f46 1. #204. Perplexity CEO 揭秘智能体浏览器 Comet 如何重塑未来　→ https://www.bestblogs.dev/article/a838722 1. OpenAI 第三期播客上线：从 ChatGPT 到智能体，AI 如何重新定义职场与科研　→ https://www.bestblogs.dev/article/360922 1. 消费级 AI 应用百强榜 | a16z Show　→ https://www.bestblogs.dev/article/d15471b 1. Gamma 创始人最新分享：30 人即可服务 5000 万用户，AI 时代如何重构新的团队范式？　→ https://www.bestblogs.dev/article/f7a69b 1. ⭐ Token 成本下降，订阅费却飞涨，AI 公司怎么了？｜机器之心　→ https://www.bestblogs.dev/article/083769 1. ⭐ DeepSeek 复盘：128 天后，为什么用户流量一直在下跌？　→ https://www.bestblogs.dev/article/25d067 1. 一年成爆款，狂斩 49.1k Star、200 万下载：Cline 不是开源 Cursor，却更胜一筹？！　→ https://www.bestblogs.dev/article/9955ed 1. 比女皇报告还炸裂！67 页 AI 深度调研刷屏，全球 LLM 大决战真正开始　→ https://www.bestblogs.dev/article/b94eb3 1. 动态计算：我们如何构建无服务器服务器 - Vercel　→ https://www.bestblogs.dev/article/28372b 1. 复盘 2024，大模型的商业化主线是什么？　→ https://www.bestblogs.dev/article/600fc9 1. ⭐ 阿里云 CIO 首次系统复盘：大模型落地的 RIDE 方法论与 RaaS 实践突破　→ https://www.bestblogs.dev/article/80981c 1. ⭐ Block 如何成为全球领先的人工智能驱动型企业 | Dhanji R. Prasanna　→ https://www.bestblogs.dev/article/7fd3a66 1. ⭐ AI Native 时代 —— 研发组织何去何从　→ https://www.bestblogs.dev/article/8c2c877a 1. ⭐ 脉搏：前场部署工程师再度火热　→ https://www.bestblogs.dev/article/2e174723 1. ⭐ 红杉 AI 峰会闭门 6 小时，150 位创始人共识浮现：AI 不再卖工具，而是卖收益　→ https://www.bestblogs.dev/article/1e3156 六、AI 领袖访谈与思想 1. 奥特曼万字访谈：揭秘 GPT-5 幕后艰辛，宣告超级智能前夜已至　→ https://www.bestblogs.dev/article/d1dc03 1. Sam、Jakub 和 Wojciech 谈 OpenAI 的未来，附观众问答　→ https://www.bestblogs.dev/article/cc040a9 1. 关注 AI 必读！Anthropic CEO 万字长文-预测强人工智能的积极未来　→ https://www.bestblogs.dev/article/94f850 1. 智能的未来 | 戴密斯·哈萨比斯（DeepMind 联合创始人兼首席执行官）　→ https://www.bestblogs.dev/article/7d57e33 1. 和杨植麟时隔一年的独家对话：“站在无限的开端”　→ https://www.bestblogs.dev/article/e08d9b 1. 张宏江：我对于 AI 和大模型八点观察和看法 | AI 光年　→ https://www.bestblogs.dev/article/e1362f 1. 李沐重返母校上海交大，从 LLM 聊到个人生涯，这里是演讲全文　→ https://www.bestblogs.dev/article/ae87ad 1. 王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路　→ https://www.bestblogs.dev/article/881364 1. ⭐ 黄仁勋深度访谈：十年时间，我是怎么带领 2.8 万人超越苹果的？　→ https://www.bestblogs.dev/article/11eea2 1. ⭐ Ilya Sutskever – 我们正从扩展时代迈向研究时代　→ https://www.bestblogs.dev/article/cf49760 1. ⭐ GPT-5 被批过度炒作、性能落后，OpenAI 联创揭秘其中原因：我们把它关在 “象牙塔”，和现实世界接触不够　→ https://www.bestblogs.dev/article/c88ed7 1. ⭐ Andrej Karpathy 谈软件 3.0：AI 时代的软件　→ https://www.bestblogs.dev/article/c3b1e5 1. ⭐ The Second Half：一位 OpenAI 科学家的 AI 下半场启示录　→ https://www.bestblogs.dev/article/4e45fa 1. ⭐ 汤道生姚顺雨对谈：腾讯 AI 的下半场　→ https://www.bestblogs.dev/article/1fa6207b 1. ⭐ 如何避免 AI 扼杀你的批判性思维 | 阿德韦特·萨卡尔　→ https://www.bestblogs.dev/article/75cded7 1. ⭐ iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力　→ https://www.bestblogs.dev/article/18391e3 1. ⭐ E45 孟岩对话李继刚：人何以自处　→ https://www.bestblogs.dev/article/17ad4f7 BestBlogs.dev ｜发现真正适合你的高质量内容

译BestBlogs周刊第100期特刊回顾两年AI发展，核心洞察：答案变便宜，判断变贵。模型层：DeepSeek-V3（6700亿参数、每次激活370亿、训练成本约557万美元）和R1（纯强化学习推理开源）将效率与开源变成新范式。AI编程层：Codex案例中模型7小时迭代200轮测试仅改动500行代码，验证成为新瓶颈；Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器，人从写代码退到判断、验证和为结果负责的位置。

François Chollet@fchollet · 6月21日65

The more you embrace AI, the more you need SaaS. This is not obvious to armchair market analysts who love disruption narratives, but it is obvious to people actually running companies.

译François Chollet 指出，越拥抱AI，就越需要SaaS。Box CEO Aaron Levie 将 Salesforce 的 MCP 服务器接入 Claude Code 后，Salesforce 使用量达到此前的5倍。他开始查询以往懒得手工操作的客户和市场情报。智能体消除了操作摩擦，底层系统被更多查询而非取代。对持有 $CRM 的投资者而言，智能体时代是用户参与度的顺风车，而非颠覆风险，前提是数据平台能承载查询负载。

ginobefun@hongming731 · 6月21日49

http://x.com/i/article/2068480429980876800 # BestBlogs 早报 · 06-21｜李飞飞预言职场哑铃化，Tokenmaxxing 三月退烧，Claude Code 上下文注入全解析 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。在线阅读本期早报 ## 导语过去三个月，硅谷经历了一场速度罕见的叙事反转。三月，token 消耗量还是验证「AI 超级个体」身份的硬通货——OpenAI 工程师一周烧 2100 亿 token，Claude Code 重度用户一个月能花掉 15 万美元，黄仁勋甚至公开喊话「年薪 50 万的工程师，token 支出低于 25 万就该让人担心」。可不到两个月后，Amazon 关掉了内部 AI 排行榜，Uber 提前烧光了全年 Claude Code 预算开始质疑 ROI，微软计划把 Experiences + Devices 部门的工程师迁回自家工具。今天的精讲二就拆解了这场「Tokenmaxxing 退烧」背后的硬数据：Agentic coding 的真实 token 消耗是普通问答的约一千倍，七成耗在反复试错的「Explore」和「Fix」阶段；写代码效率确实涨了 180%，但传导到真正发布上线时只剩约 30% 的增量——上游烧得越猛，下游瓶颈暴露得越彻底。另一条线索更关心「谁会被这场变化重新分类」。李飞飞与 MasterClass 创始人 David Roger 在精讲一里提出「哑铃效应」：当文本智能的成本逼近零，劳动力会向两端坍缩——一端是审美与技艺不可复制的顶尖工匠，另一端是能调度 AI 完成端到端任务的高能动性通才，中间地带持续萎缩。这个判断和速览里那篇「AI 十倍提效却升不了职」的反思形成了有趣的呼应：交付得越快，反而越容易被钉死在「执行者」的位置上。而精讲三给出的是一份扎实的工程答案——Claude Code 的八种上下文注入机制，到底该怎么分工，才能既不浪费 token，又不让 Agent 在长任务里跑偏。三条主线放在一起看，正好覆盖了这一轮 AI 叙事退烧之后，真正该关心的三个问题：钱花在哪儿了，人该站在哪儿，工程该怎么搭。 ## ★ 精讲一：AI 教母预言：10 年后只剩两种工作者原文链接：AI 教母预言：10 年后只剩两种工作者（Silicon Valley Girl）这场对话的起点是一个被反复滥用的简化论断：「智能的成本正在归零」。李飞飞直接挑战了这个框架——人类能力远比文本和语言丰富得多。她引用的原话是：「体力劳动、认知劳动、情感劳动——人类的活动与人类智能深度交织，而这在自然界仍是一个远未解开的谜题。」大语言模型在逻辑语法、商业智能和代码生成上确实出色，但它们本质上受限于语言、且是有损的。真正的智能需要进化用 5 亿年打磨出的多个维度：感知智能（捕捉环境细节）、空间智能（在三维或四维世界中理解、推理、生成并物理交互）、情感智能（驾驭故事、共同价值与深度共情）。由此引出这场对话最核心的论断——MasterClass 创始人 David Roger 提出的「哑铃效应」：随着文本智能的成本持续下降，企业组织正在经历一次结构性分化。一端是「顶尖 1% 专家」：拥有不可被基线模型模拟的情感与视觉深度的大师级工匠，靠的是精湛技艺与专业判断力；另一端是「高能动性通才」：能部署定制化 AI 层、独立处理复杂端到端任务的多面手，靠的是战略判断与对技术的深度自如。中间地带——那些既不顶尖、也不够通才的岗位——正在持续坍缩。这个结构性转变已经在硅谷的核心岗位上显现：传统上不写代码、负责协调工程团队与市场的产品经理，现在已经在用 AI 工具直接搭建和编写自己的原型，产品生命周期被大幅压缩。教育系统里的采纳差距同样明显。过去六十年的数据证明，一对一的人类教学始终是学习效果的黄金标准，只是过去因为成本太高而无法普及。如今交互式 AI 平台能用极低的成本模拟出这种个性化环境——研究显示，结构化使用 AI 能让学生在少 60% 的时间内掌握同等知识量，而完全禁止使用这些工具的教育系统，可能会让学生落后适应性环境整整十年。李飞飞和 David Roger 都强调，教育的目标绝不能被简化为标准化考试分数或闭卷合规，而应该聚焦于培养能在高度数字化的文明中过上有意义生活的人。对于深陷技术焦虑的从业者——医疗工作者、会计、教育者——正确的应对从来不是回避。历史上的技术范式转移（比如电子表格的出现）反复证明，拒绝适应工具的专业人士会承受严重的经济和系统性代价；反过来，适应工具能解锁一种深刻的自我驱动的创业精神。建立这种自主性，需要从追求结构化、寻求表扬的习惯，转向对风险的高容忍度和直面失败的意愿。李飞飞给非技术背景的人的建议很具体：找一个 25 岁以下的数字原生代，花一个周末坐下来观察他们如何下意识地用这些工具解决真实问题——这比抽象的恐惧更能帮你建立起对技术的真实手感。这篇视频和今天另外两条精讲构成了一个完整的拼图：哑铃效应解释了「人该站在哪个位置」，Tokenmaxxing 退烧解释了「钱为什么没有带来对应的产出」，Claude Code 的上下文注入机制则给出了「想成为高能动性通才，具体该怎么动手」的工程答案。 ## ★ 精讲二：三个月，一场必然失败的 Tokenmaxxing 原文链接：三个月，一场必然失败的 Tokenmaxxing（腾讯科技）纽约时报记者凯文·罗斯在 3 月 20 日最早发现了硅谷开发者中的 Tokenmaxxing（token 利用最大化）现象：OpenAI 工程师一周用掉 2100 亿 token，相当于 33 个维基百科的体量；Claude Code 重度用户一个月能烧 15 万美元。程序员在 X 上开始比拼 token 用量，把它扭曲成一种「AI 超级个体身份」的标识——用得越多，证明你越能驾驭多线程并行工作。4 月，这个概念被互联网公司全面接纳：黄仁勋在 GTC 上喊出「年薪 50 万的工程师 token 支出低于 25 万就该让人担心」，Y Combinator CEO Garry Tan 称自己「tokenmaxxing 的时间比大多数人都长」，迪士尼、Visa、阿里、腾讯、字节都陆续把 token 额度和 AI Coding 工具开放给普通员工。但不到两个月，风向就变了。据《金融时报》5 月 29 日报道，亚马逊关闭了内部 AI 使用排行榜 Kirorank——因为有员工为了刷榜，让 AI agent 去执行毫无实际价值的任务，纯粹堆 token 消耗量。Uber COO Andrew Macdonald 在播客里直言，公司看不到 token 消耗和「更多有用的消费者功能」之间的直接对应关系：Uber 去年底部署 Claude Code 后，95% 的工程师每月都在用、70% 的提交代码来自 AI，但每个工程师每月 500 到 2000 美元的 API 调用费，让公司在 2026 年 4 月就烧光了全年预算。微软同期计划在 6 月底前取消 Experiences + Devices 部门大部分 Claude Code 内部授权，把工程师迁回自家的 GitHub Copilot CLI——本质上是规模化账单已经难以控制。这场退烧背后有三组扎实的研究数据支撑文章的判断。第一组来自谷歌和微软 4 月联合发表的论文《AI Agent 是怎么烧你钱的？》（arXiv 2604.22750）：Agentic coding 的 token 消耗是普通代码问答的约一千倍，而且成本主要来自输入而非输出——钱大多花在模型反复读取上下文上。论文把 Agent 工作拆成五个阶段：Setup（9.98%）、Explore 探索代码与根因（30.37%）、Fix 修改调试（33.53%）、Validate 测试验证（16.59%）、Closeout 收尾（9.53%），其中 Explore 和 Fix 合计占了约三分之二的消耗，而且同一任务不同尝试之间的 token 消耗最高能差出 30 倍——模型自己也算不准该花多少钱。第二组来自哈工大 5 月底的论文，提出「有效反馈计算」（EFC）概念衡量 Agent 行动的真实效率，结果显示在复杂任务中大多数 Harness 的 EFC 转化率低至 0.1——花 100 块钱取证，只有 10 块真正买到了能改变下一步的线索。第三组数据更直接地回应了「写代码变快了，为什么产品还没变多」这个问题：MIT 在 2026 年 5 月发表的《Writing Code vs. Shipping Code》（NBER w35275）分析了 10 万多名 GitHub 开发者的数据，发现自主 coding agent 能让 commits 累计增加约 180%，但这个增量传导到项目数时只剩约 50%，传导到真正的 releases 时只剩约 30%——写代码和交付代码根本不是一回事，上游红利在下游审核、测试、发布、用户采用这些没有同步加速的环节里被大幅稀释了。文章把这一切归结为经济学里早已存在的「生产率悖论」：复杂产品由一组互补要素决定，任何一个要素都能成为瓶颈，只有当数据、流程、人员、评测和责任体系逐渐成熟后，前期的 token 投入才可能开始产生回报。这也呼应了精讲一的哑铃效应——能不能成为「高能动性通才」，恰恰取决于你是否理解这些瓶颈在哪里，而不是单纯比拼调用了多少 Agent。截止六月，几乎所有曾无上限投入 Tokenmaxxing 的公司都已经调整方案，这场应用层 AI Hype 在三个月内基本终结，但文章也提醒，它的失败并非毫无意义——这正是企业为趟出真实瓶颈而必须支付的代价。 ## ★ 精讲三：深入理解 Claude Code：上下文注入机制全解析 ![Claude Code 上下文注入机制对比](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/d734d4b2125caa78.png) 原文链接：深入理解 Claude Code：上下文注入机制全解析（赛博禅心）如果精讲二讲的是「token 为什么被浪费」，这篇文章讲的就是「怎么从工程上少浪费」。文章的出发点很朴素：大模型的工作原理本质就是「塞进去足够的上文，模型就能给出足够好的结果」，而 Agent 和 ChatBot 的核心区别在于「谁来构建上下文」——ChatBot 靠人喂材料，Agent 会自己搜网页、读文档、调工具，把有用的内容写进上下文。正因如此，用工程手段限定 Agent 在哪些步骤能看到哪些东西，就变得格外重要，这正是 CLAUDE.md、Skills、Subagents、Hooks 等一整套上下文注入方法存在的原因。文章按生命周期把这些方法拆解得很清楚。CLAUDE.md 是唯一「全程加载、全程占 token」的方法，适合放 Claude 随时需要知道的「事实」——构建命令、目录结构、团队约定，而不该塞流程性的 30 行清单，因为子目录 CLAUDE.md 只在碰到对应目录时才加载，压缩后会丢失，再次碰到时重新加载。Skills 的设计则聪明得多：启动时只加载名字和描述，几十个 token 的事，完整内容等被调用时才进上下文，用完后如果 token 预算超限，最早调用的 skill 会被踢掉——这是「流程」该待的地方，比如部署清单、发布流程、review checklist。Subagents 则是另起一个独立上下文窗口跑任务，跑完只把摘要交回主会话，从主会话角度看上下文成本几乎为零，特别适合深度搜索、日志分析、依赖审计这类需要大量中间结果但不需要保留的脏活累活。Hooks 是这套体系里最不像 AI 的机制——它是代码，由 harness 在外部确定性执行，完全绕开模型的判断力，覆盖从 PreToolUse 到 SubagentStop 的八种事件，如果某件事绝对不能发生（比如误执行 rm -rf），就该用 Hook 做硬护栏，而不是寄希望于提示词约束。文章特别点出了几个常见误区，对应到的解决方案很直接：「每次 X 必须做 Y」该用 PostToolUse hook 而不是写进 CLAUDE.md；「绝对不要做 Z」该用 PreToolUse hook 的 exit code 2 硬拦截；Rule 没加路径限定就等于全程占 token，跟写进 CLAUDE.md 没区别。这套分工逻辑的本质，是给不同类型的指令匹配不同的生命周期——有的需要全程在场，有的只在特定场景出现，有的用到才加载，有的在独立窗口里跑，有的完全不占上下文。文章最后引出了 Anthropic 最近发布的 Dynamic Workflows（动态工作流）能力：让 Claude 自己写编排脚本，协调多个 Subagent 并行工作，专门用来解决默认 Harness 的三个老问题——「偷懒」（安全审查要查 50 项，查到第 35 项就宣布完成）、「自我偏好」（让 Claude 检查自己写的代码，它倾向于觉得没问题）和「目标漂移」（长会话每次压缩都是有损的，边缘约束容易在压缩中丢失）。Dynamic Workflow 靠独立上下文窗口隔离每个子任务，从结构上消解这三个问题，常见的编排模式包括 Classify-and-act（先分类再分发给专用 Agent）、Fan-out-and-synthesize（拆成 N 个子任务并行后汇总）、Adversarial verification（执行 Agent 配验证 Agent 对抗检查）等六种。这和精讲二里 Nadella 提出的「Token 资本」概念其实是同一枚硬币的两面：真正能沉淀价值的不是烧了多少 token，而是有没有把这些上下文注入方法用对位置——这恰恰是精讲一里「高能动性通才」最具体的工程画像。 ## 速览 [The Factory Model：Coding Agents 如何改变软件工程](https://www.bestblogs.dev/article/43750e7e) ![软件工厂模型抽象层级](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/c6857fd7541456d6.jpg) 谷歌工程师 Addy Osmani 提出「软件工厂模型」：当 Coding Agent 从补全、对话式协作走向长时间自主执行，工程师的工作重心正从「亲手写代码」转向「设计一个能产出软件的系统」。文章把 AI 编码工具分成三代——加速版自动补全、同步式智能体、自主智能体，并强调架构理解、规格说明、测试和判断力并未过时，反而因为会被放大到几十个并行 Agent 上而变得更重要：模糊的 spec 会在规模化执行中被乘法式放大成混乱，而 Red/green TDD 这种老派纪律，在 Agent 工作流里已经接近必需品。这篇文章和精讲三的上下文注入机制是一对很好的搭配——一个讲清楚「为什么规格说明现在比代码本身更值钱」，另一个给出了「怎么用工程手段管住 Agent 不跑偏」。 [AutoJack：单个页面如何让运行 AI 智能体的主机沦陷](https://www.bestblogs.dev/article/9ac31e0e) ![AutoJack 攻击链全流程](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/f93810d70ed98479.webp) Microsoft 安全团队披露了 AutoGen Studio 里的一条利用链 AutoJack：一个具备浏览能力的本地 AI Agent，会被攻击者诱导渲染恶意页面，页面里的 JavaScript 直接向本地 MCP WebSocket 发起连接，绕过 Origin 校验和鉴权中间件，把任意命令当作 MCP 服务器参数执行，最终在开发者账户权限下实现远程代码执行。三个独立的薄弱点——Origin 白名单信任本地却没意识到 Agent 本身就是「本地」、鉴权中间件对 MCP 路径开了后门、URL 参数直接被当作命令行执行——叠加在一起，就构成了完整攻击链。该问题在正式发布前已被修复，pip 安装的版本不受影响，但文章给出的通用教训值得记住：当一个 Agent 既能浏览不可信内容、又能访问本地特权服务时，localhost 就不再是可信边界，必须对每一个控制平面做身份校验和权限隔离。 [让开关自我消亡：AI 赋能的 Feature Flag 全生命周期治理](https://www.bestblogs.dev/article/650de739) ![快手开关治理双引擎架构](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/9e7f39a3307b9ce8.jpg) 快手资深架构师闫文亮在 QCon 分享了一套用 AI 治理 Feature Flag 技术债的完整实践。快手短视频主业务每秒调用开关次数高达 155 亿次，早期直接调用大模型批量修改开关代码，正确率只有 70%-80%，会出现误删方法、改反逻辑这类高风险错误。团队随后搭建了「大模型生成 + AST 引擎校验」的双引擎架构：大模型负责处理代码的模糊性，AST 引擎用规则加有向图重新改一遍代码做交叉验证，两者结果一致才算通过，不一致才转人工——这把审核压力从「每次都要人看」变成「只在分歧时才需要人看」。系统进一步引入双 Agent 自进化机制，让 AI 自己分析 Bad Case 该优化 AST 引擎还是检测插件，目前已累计自动下线 1500 个开关、删除六万多行代码，准确率 98% 以上、线上零故障。这套「不确定性探索 + 确定性校验 + 自进化闭环」的范式，本质上是一个可复用的技术债治理框架，也是精讲三「Hook 做确定性护栏」思路在更大规模治理场景下的工程印证。 [智能体技术栈](https://www.bestblogs.dev/article/9e584322) Vercel 发布了 Agent Stack，把构建生产级 Agent 所需的核心能力打包成一套集成构建模块：AI SDK 提供调用任意模型的统一接口，AI Gateway 充当「token 的 CDN」跨数百个模型路由并追踪成本，Workflow SDK 给每一步任务做检查点、保留状态、自动重试。文章的核心诉求很直接——开发者不该被迫在厂商锁定、自己拼接方案、自建抽象层之间三选一。这与精讲二里企业开始把 token 消耗和「可沉淀的企业级 AI 能力资产」挂钩的趋势是同一条逻辑，只是这次给出的是基础设施层的具体落地方案。 [哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人](https://www.bestblogs.dev/article/43f4b5a3) ![黄碧薇谈因果世界模型](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/2897f415ded17e1d.png) Aether AI 创始人黄碧薇刚完成 2000 万美元天使轮融资，她在播客里指出「世界模型」这个 2026 年最热的词，定义其实非常不统一——视频生成、3D 生成、V-JEPA 都被笼统归入这个范畴，但侧重点完全不同。她给出的定义是：世界模型必须理解物理规律和因果关系，能模拟世界如何基于时间或动作从当下状态演变到下一个状态。从马普所到 CMU 再到 UCSD 深耕因果发现 12 年后，她选择把「更合理但更难实现」的因果 AI 路线带进具身智能领域，第一个落地场景就是具身大脑。对正在思考下一代 AI 范式从哪里出现的读者，这是一份扎实的技术路线图。 [使用 AI 十倍提效，成了模范老黄牛，就能加薪升职了？](https://www.bestblogs.dev/article/0bcff377) 作者分享了一个相当讽刺的真实经历：靠 AI 把交付速度提到「superhuman pace」，却两次升职失败。他的反思是，自己在老板眼里变成了「手」而不是「脑」——交付太快太可靠，反而被派来越来越零散、方向多变的任务，最终因为说不清楚「过去一年到底做成了什么」而在晋升评审里吃亏。文章用管理学里的「奖赏系统」概念解释了这个陷阱：当 AI 让交付变得极度便宜，组织会不自觉地把更多脏活分配给最好用的人。作者给出的破局思路不是被动响应现有奖赏系统多交付，而是主动管理「交付的摩擦」——判断哪些是真正值得做的事，对不必要的脏活说不。这篇文章和精讲一的哑铃效应是一组很尖锐的对照：能用 AI 十倍提效，未必能让你站上「高能动性通才」那一端，反而可能让你更快地被钉死在「执行者」的位置上。 [40 岁独立创始人时代已来：Webflow 联合创始人 Bryant Cho 用 AI 重新定义营销](https://www.bestblogs.dev/video/f22c41a) ![Webflow 联合创始人谈 AI 营销](https://media.ginonotes.com/bestblogs-daily-briefing/2026-06-21/zh/podcast/images/df5520faa4b5486e.jpg) Y Combinator 主持人采访了 Webflow 联合创始人 Bryant Cho，他现在在做新项目 Ploy——一个 AI 营销与建站平台。Bryant 认为，拥有十几年行业品味积累、又掌握 AI 工具的资深创始人，现在能单枪匹马做到过去需要大团队才能完成的事：Ploy 内置的 Slurper 引擎能在 75 秒内分析一个现有网站的风格规则，重建出品牌一致的组件系统，而不是输出容易碎片化的标准 AI 模板。他特别强调，驾驭这种「无边界的模型智能」需要相当的专业积累——这正是精讲一里「顶尖工匠」与「高能动性通才」结合体的一个真实案例：经验越深，AI 工具放大出的杠杆越大。 ## 补充阅读 [AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码](https://www.bestblogs.dev/status/2068363092904276316) —— 宝玉系统梳理了把传统软件工程实践（需求分析、系统设计、代码审查、测试、CI/CD、灰度发布）应用到 AI Agent 编程的具体方法论，核心观点是与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 更少发生。适合正在搭建 Agent 编码工作流、想要一份可落地清单的工程师阅读，和精讲三的上下文注入机制可以对照着读。 [关于 AI 编程错误修复与 AGENTS.md 更新的不同意见](https://www.bestblogs.dev/status/2068231396015890449) —— 作者提出一个反直觉的观点：程序错误应该先恢复生产、查找根因，再根据根因选择测试、重构或流程改进，而不是简单粗暴地把所有规则都写进 AGENTS.md。这恰好是精讲三里「CLAUDE.md 不该被塞满流程」原则的另一个视角佐证，适合对照阅读。 [Codex 上线跨设备任务迁移功能 Handoff](https://www.bestblogs.dev/status/2068183780938985827) —— Codex 推出 Handoff 功能，允许用自然语言指令把正在进行的编程任务（含完整 Git 状态）在本地与远程服务器之间无缝迁移。适合关注 Agentic coding 工具链最新进展的读者。 [让 PDF 中的图片可被 RAG 搜索，无需付费读取所有图片](https://www.bestblogs.dev/article/01188342) —— 提出一种成本有序的级联方法，依次用廉价过滤器、类型分类器、传统 OCR 和视觉模型处理 PDF 图片，只对少数值得付费的图片真正调用视觉模型。适合正在搭建企业级 RAG 系统、关心推理成本控制的工程师，思路和精讲二里「token 该花在哪儿」的判断标准相通。 [从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事](https://www.bestblogs.dev/article/109f1dce) —— 通过访谈 Cerebras 早期投资人周楠，回顾百度美研在 2016 年前后对 AI 算力瓶颈的前瞻判断，并探讨当前 AI 投资从非共识到共识窗口急剧缩短的行业变化。适合想了解算力投资历史脉络的读者。 [对话王小川：造医生，战豆包，与无尽的 AI 非共识](https://www.bestblogs.dev/article/2fe94b1c) —— 王小川阐述百川智能聚焦 AI 医疗的战略逻辑：面对豆包等通用模型的冲击，选择以「造 AI 家庭医生」为切入点，在医疗供给端创造新价值，而不在 Coding 等共识赛道内卷。适合关心大模型创业公司差异化战略的读者。 [Microsoft Fabric 中的物化湖视图：当你的 Medallion 架构适配于一条 SELECT 语句时](https://www.bestblogs.dev/article/f6c28015) —— 介绍 Microsoft Fabric 的物化湖视图（MLV）如何把 Notebook、管道和调度简化成声明式 SQL 或 PySpark，自正式发布以来新增了命名调度等能力。适合数据工程团队评估是否要简化现有 Medallion 架构。 [LLM 修格斯迷因比你想象的更诡异](https://www.bestblogs.dev/article/9d82f035) —— 探讨 H.P. 洛夫克拉夫特的修格斯神话与现代 LLM 之间的深层共鸣，认为这个迷因不只是玩笑，更是对「创造缺乏真正理解与价值观、只会盲目模仿的 AI」的一种寓言式警示。适合对 AI 安全叙事感兴趣的读者。 [如何在 Flutter 中正确处理错误：密封类、记录与 Result 类型的实用指南](https://www.bestblogs.dev/article/20d158fe) —— 介绍如何在 Flutter 中用密封类、Result 类型、Dart 3 记录和模式匹配处理错误，主张把错误当作显式的值而非不可见的异常。适合 Flutter 工程师参考。 [LLM 如今已变得复杂](https://www.bestblogs.dev/article/849ac78a) —— 指出现代 LLM 已从简洁的 Transformer 堆栈演变为包含多种注意力变体、MoE 路由和多模态编码器的复杂系统，这与推荐系统的复杂性发展轨迹如出一辙。适合关心模型架构演进脉络的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，先读精讲二《三个月，一场必然失败的 Tokenmaxxing》——它用最扎实的数据解释了过去三个月 AI 应用层叙事为什么集体退烧，是理解当下 AI 投入逻辑的地基；第二，读精讲一《AI 教母预言：10 年后只剩两种工作者》——李飞飞的哑铃效应能帮你判断自己该往「顶尖工匠」还是「高能动性通才」哪个方向走，速览里那篇「AI 十倍提效却升不了职」的反思可以接着读，两篇对照会让判断更具体；第三，如果你是工程师或正在搭建 Agent 工作流，精讲三《深入理解 Claude Code：上下文注入机制全解析》值得完整读完——它把 CLAUDE.md、Skills、Subagents、Hooks 的分工讲得很清楚，是少烧 token、多出活的具体方法。三篇读完，再挑速览里和你工作最相关的一两条补充即可。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译李飞飞与David Roger提出“哑铃效应”：文本智能成本趋零，劳动力向顶尖1%专家和高能动性通才两极坍缩，中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token，Claude Code重度用户月花15万美元；五月迅速退烧——Amazon关闭排行榜，Uber烧光2026年全年预算，微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍，70%耗于探索与修复；写代码效率增180%，但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。

Rohan Paul@rohanpaul_ai · 6月21日69

The $10-$15 trillion total addressable market for AI, if it is successful, is actually "terrifying". - The famous "Dean of Valuation", Professor Aswath Damodaran, of NYU Stern School of Business. The reason: AI as a tool is a much smaller market; AI as a replacement for human-jobs is where the giant market story comes from. "The best-case scenario for AI, that $10 to $15 trillion market, will happen if ONLY it replaces people. If AI is a tool, it’s going to be a much smaller market than if AI replaces people. So, the stories we’re telling about $10, $20 or $25 trillion markets are actually terrifying stories for the rest of the world. Why? Because if that story comes true, half of all white-collar people are going to lose their jobs. And what are they going to do instead? Who’s going to come up with the income to buy the products and services? If AI works as well as it’s supposed to and replaces people, how do we deal with that as a society? Because people lose their jobs. Not only do you lose your income, you lose your life’s meaning.." ---- Video from "Excess Returns" podcast (full video in quoted tweet, also link to their YT in comment)

译NYU Stern商学院估值教授Aswath Damodaran指出，AI的10-15万亿美元可寻址市场如果成功实则“可怕”。原因在于：AI作为工具的市场远小于替代人类的市场；只有AI取代人类，才能实现这一规模。若成真，半数白领将失业，社会面临收入丧失和人生意义缺失。他在播客中还讨论了TAM陷阱、AI单位经济学、增长伴随再投资可能破坏价值，以及AI正将部分科技巨头从轻资产公司转变为基础设施公司等观点。