Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog article. Tl;dr: •We are close to an AI capable of fully autonomously designing and building its own successor •They stress this isn’t here yet and isn’t inevitable, but could arrive sooner than most institutions are ready for •Anthropic engineers now ship on average 8x as much code per quarter as they did in 2021–2025 •Task length AI can reliably complete is doubling roughly every 4 months (up from every 7 months) •Opus 3 (Mar 2024) handled ~4-minute tasks; Sonnet 3.7 (a year later) ~90-minute tasks; Opus 4.6 (a year after that) 12-hour tasks •SWE-bench went from low single digits to saturated in two years; CORE-bench (research reproduction) went ~20% to saturated in 15 months •METR found Claude Mythos Preview could work “at least” 16 hours, at the top of what they can currently measure •As of May 2026, Claude authored 80%+ of code merged into Anthropic’s codebase (low single digits before Claude Code launched in Feb 2025) •A March 2026 poll of 130 research staff: median respondent estimated ~4x output with Mythos Preview •One April 2026 example: Claude shipped 800+ fixes cutting a class of API errors 1,000x, work an engineer estimated would have taken a human four years •Claude-written code quality: worse than human in late 2025, roughly at parity now, expected to be strictly better within the year •On the hardest open-ended tasks, Claude’s success rate hit 76% in May 2026, up 50 points in six months •Code-speedup test: Opus 4 averaged ~3x speedup (May 2025), Mythos Preview ~52x (April 2026); a skilled human needs 4–8 hours to hit 4x •In an AI-safety research project, Claude agents recovered 97% of a performance gap (vs ~23% for two human researchers in a week), over 800 compute-hours and ~$18K •On picking the better “next step” in research sessions, the best model beat the human choice 51% (Nov 2025, Opus 4.5) rising to 64% (April 2026, Mythos Preview) •Human comparative advantage, for now: research taste and judgment, i.e. choosing which problems matter and when an approach is a dead end Three possible futures •The trend stalls (S-curve), but today’s capabilities still diffuse widely; they consider this least likely •Compounding efficiency gains, with humans still setting direction; 100-person firms doing the work of 10,000+; they think this is the likely path •Full recursive self-improvement, where AI builds its successors and pace is set by compute; the alignment outcome here is what they’re least certain about

译Anthropic 内部数据显示 Claude 能力增速远超预期，可能接近自主设计继任者的递归自我改进。关键指标：工程师人均季度代码产出是此前四年平均的 8 倍；AI 可可靠完成的任务时长每 4 个月翻倍，从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月，Claude 撰写代码占 Anthropic 代码库 80%+，代码质量已与人类持平，年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低，复合效率增益最可能，完全递归自我改进的对齐结果最不确定。

Ethan Mollick@emollick · 6月5日47

A real problem with feeling the acceleration viscerally is that current models are really good and it is hard to feel the vibe difference on most individual tasks with new models, even as AIs continue to increase in ability by large amounts (which they actually are doing).

译一个切实的问题在于，要切身感受到这种加速很难——当前模型已经非常出色，即便AI的能力在持续大幅提升（它们确实在这么做），大多数个体任务上也很难体会到新模型带来的那种不同。

Anthropic@AnthropicAI · 6月5日74

Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention. https://www.anthropic.com/institute/recursive-self-improvement

译我们的内部数据显示，Claude 正在加速 AI 发展——这是一条通往递归自我改进的可能路径，也就是 AI 自主构建一个更强大的后继者。这发生得比我们预想的更快，其影响值得更多关注。

Claude@claudeai · 6月4日51

Anton Osika (@antonosika) is the co-founder and CEO of @lovable, where anyone can build software through conversation. His working thesis: the most underrated moat in AI is trust, and earning it takes craft, care, and obsession.

译Anton Osika (@antonosika) 是@lovable 的联合创始人兼CEO，任何人都能通过对话构建软件。他的工作论点：AI中最被低估的护城河是信任，而赢得信任需要技艺、用心与执着。

Nathan Lambert@natolambert · 6月4日60

Nvidia joined the multi-teacher, on-policy distillation (MODP) gang! Is industry standard post-training right now. The multi-teacher SFT to RL that Microsoft did in their first model was the standard established by DeepSeek R1. I expect MAI 2 to be MODP.

译Nvidia采用多教师在线策略蒸馏（MODP）作为后训练核心方法，标志该范式成为行业标准。其流水线重新设计：先进行SFT，再在多智能体/推理/代码/安全环境中执行多环境RLVR，最后用10+领域专长教师通过密集token级指导蒸馏到学生模型的自生成输出上。该标准由DeepSeek R1开创，微软早期模型也使用多教师SFT→RL路线。

meng shao@shao__meng · 6月4日17

人肉总结: 选计算机专业！

译一条推文围绕“是否该选计算机专业”展开：引用称AI导致程序员大量失业，劝别选；主推文则坚持选。引用虚构一家startup全员AI native，CTO带中文系硕士用AI半个月写操作系统并自建微信、飞书、Office，卖数千万，导致腾讯、字节VP上门求停，飞书总裁承认6000员工五年成果被AI三个月颠覆。

Ethan Mollick@emollick · 6月4日56

Deciding that under no circumstances AI could never be conscious removes a whole bunch of thorny problems that might impact the AI industry if some form of AI consciousness might be possible at some point.

译决定在任何情况下AI都不可能拥有意识，这消除了大量棘手问题——如果某种形式的AI意识在某个时候是可能的，这些问题可能会影响AI行业。

小互@xiaohu · 6月4日82

📢 里程碑机器人流量🤖 首次在互联网历史上超过了人类在线流量👨‍🦰 根据Cloudflare Radar的实时统计过去一周（5月28日到6月4日），全球所有请求 HTML 网页的流量中，57.5% 来自机器人（爬虫、AI 抓取、自动化脚本），只有 42.5% 来自真人浏览器。人类访问网页已经是少数派了。把所有 HTTP 流量按返回内容分类，JSON 占 33.1% 排第一，HTML 只有 12%。 JSON 就是 API 调用的标准格式，机器和机器之间对话用的，HTML 是给人看的网页。两张图叠在一起的意思是：互联网流量的主体已经不是"人打开浏览器看网页"了。三分之一的流量是 API 对 API 的机器通信（JSON），而剩下那些确实在请求网页的流量里，超过一半也是机器人在抓。

译Cloudflare Radar 实时统计显示，过去一周（5月28日至6月4日）全球所有 HTML 网页请求流量中，57.5% 来自机器人（爬虫、AI 抓取、自动化脚本），仅42.5%来自真人浏览器，机器人流量首次超过人类。按所有 HTTP 流量返回内容分类，JSON（API 机器通信）占33.1%居首，HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。

歸藏(guizang.ai)@op7418 · 6月4日67

http://x.com/i/article/2062359856376610816 # 即览：手机上看 Markdown 和 HTML，怎么就这么难？之前预告过的那个「手机上的 Markdown / HTML 阅读器」做完了，叫即览。它解决的是一个很小、但最近越来越烦的问题：别人从微信、文件 App 或群里发你一份 AI 报告、网页 PPT、Markdown 文档，手机上点开不是空白，就是源码，要么样式全坏，要么根本不知道该用什么打开。 .md、.markdown、.html、.htm、.txt，还有打包好的网页 ZIP，都可以直接用即览在 iPhone 和 iPad 上打开。本地渲染，本地保存，不需要上传，也不需要注册账号。文末有 TestFlight，想试可以直接申请，我开了 8000 个名额。但我做即览，不只是因为缺一个阅读器。更直接的原因是：这段时间我越来越明显地感觉到，在 AI 参与内容生产之后，我们交换内容的格式正在变。很多文本内容开始落到 Markdown，很多展示内容开始落到 HTML。即览只是这个变化走到手机端时，掉出来的一个小工具。 ## Markdown 不只是文本格式，它正在变成 AI 的数据层前几天看到 Obsidian 作者的一句话，我觉得很准：.md 正在成为 AI 文件交互里的一个 Schelling point。 Schelling point 可以翻译成“谢林点”，意思是没有人强制规定，但大家会自然聚到同一个选择上。 Markdown 现在就有点像这样。没人规定 AI 应该用 Markdown，标准委员会也没有出来宣布过什么。但在真实使用里，不管是人写给 AI，还是 AI 写给人，最后经常都会落到 .md 文件上。原因也很朴素。它是纯文本，模型读写都轻。它有足够的结构，标题、列表、表格、代码块、链接都能表达。它又不会像 .docx 那样被包进一层复杂格式里。人可以直接打开，AI 也可以直接处理，版本管理和 diff 都干净。但我觉得更重要的是，Markdown 不能再只被理解成“编辑器里的文本”。它更像是 AI 工作流里的底层数据。我在 CodePilot 里就是这么用的。它没有特别复杂的 memory 机制，很多记忆其实就是一组 Markdown 文件。 AI 往里写，AI 从里读，我自己也能打开改。更进一步，CodePilot 里的 widget 也可以把这些本地 Markdown 和 memory 当作数据来源。文件变了，组件展示也跟着变。这时候 Markdown 就不只是“拿来读的一篇文章”了。它变成了一种很轻的本地数据层：人能看，AI 能读，工具也能基于它生成新的界面和交互。这也是为什么我觉得，最近很多人继续卷 Markdown 编辑器，方向可能有点窄。真正有意思的不是再做一个更漂亮的编辑框，而是把 Markdown 当成数据，去构建新的阅读、管理和人机交互方式。 ## HTML 正在变成 AI 内容的展示层另一端是 HTML。这个趋势最近也越来越明显。上个月我开源了一个 PPT Skill，生成的就是网页形式的演示文稿。它 25 天到 1 万 star，后来我在线下答辩、展会和分享里，也反复见到有人用它做出来的 PPT。这件事让我确认了一点：很多场景里，大家要的并不是一个标准的 .pptx 文件，而是一个能拿上去讲、能被人看懂、能快速分享的展示物。刚好 Claude Code 团队最近也在讲同一件事。他们有篇文章专门写为什么越来越多输出开始用 HTML，而不是 Markdown。理由很直接：HTML 信息密度更高，更容易做视觉层级，更适合展示图表、布局、交互，也更容易被别人打开和阅读。这跟我自己的体验很接近。 Markdown 适合沉淀内容，但它一长就难读。几千字、几万字的报告堆在一个 .md 文件里，哪怕结构是对的，人也很难真的读进去。 HTML 反过来。它可以用排版、空间、颜色、图表和交互，把信息组织得更像一个“可以被消费的东西”。它不是更适合存事实，而是更适合让人理解事实。所以我现在越来越倾向于把这两件事分开看： Markdown 是数据层，HTML 是展示层。底层内容用 Markdown 留着，干净、可读、可版本管理。需要给人看、给人讲、对外分享时，再渲染成 HTML。这不是某种宏大的新标准，更像是 AI 工作流里自然长出来的一种分工。 ## 但这条链路在手机上断了内容有了，文件也发出来了，问题出在最后一步：人经常是在手机上打开它。桌面端还好。你有浏览器，有编辑器，实在不行还有 VS Code。但手机不是这样。尤其是你在微信里收到一份 AI 生成的报告、一个网页 PPT、一个 Markdown 文档时，常见体验就是点不开、显示源码、样式坏掉，或者要在几个 App 之间来回跳。这件事很小，但非常烦。微信这种 IM，本质上不是文件阅读器。它的优先级是聊天、预览和转发，不是认真打开一个 Markdown 或 HTML 文件。浏览器也不是为这个场景设计的。浏览器默认处理的是“你给我一个链接，我帮你打开网页”。但别人发给你的往往是一个本地文件，不是一个链接。你当然可以绕来绕去把 HTML 丢给浏览器，但整个链路又长又别扭。很多 Markdown 工具也偏编辑、偏笔记，不一定适合临时打开别人发来的文件。更不用说有些工具会要求你导入、同步、建库、注册账号。 HTML 还多一层安全问题：一个陌生文件里可能带脚本，你不一定希望它默认执行。所以我一直觉得这里缺了一个很简单的东西：在手机上，把 AI 工作流里常见的这些文件，安全、顺手地打开。这就是即览。 ## 即览做得很窄：打开、读、收着即览没有做成编辑器，也没有接 AI，顺便我必须得吹一下 CodeX 画的这个 App 图标，太可爱了。我一开始就想得很清楚，它只做三件事：打开、读、收着。收到文件时，从微信、文件 App 或系统分享面板里选择即览，就能打开。支持 .md、.markdown、.html、.htm、.txt，也支持网页资源打包成的 .zip。所有文件都在本地处理，不上传，不注册账号。读 Markdown 的时候，我主要按长文阅读去调。字号、行距、背景可以改；长表格可以横向滚动；有标题结构的文档可以用目录跳转。常见的 Obsidian 写法，比如任务列表、Callout、脚注、Frontmatter、标签，也尽量兼容。也支持夜间模式和颜色主题的切换。读 HTML 的时候，我更在意“可控”。它用系统 WebView 本地渲染，支持缩放、横竖屏切换，也可以在手机模式和桌面模式之间切。动态脚本默认关闭。陌生 HTML 里到底有没有脚本，你通常是不知道的。所以即览默认不把执行脚本作为前提；遇到确实需要 JS 才能看的页面，再手动打开。 ZIP 也是为真实场景做的。很多 AI 导出的网页不是单个 HTML，而是 index.html 加一个 assets 文件夹。即览会解压后自动找入口，本地图片和 CSS 也能正常加载，不至于样式全丢、图片全裂。打开过的文件会自动留在本地历史里。下次想回看，进 App 就能找到。重复导入同一个文件不会堆出两份，重要的也可以收藏。这就是它现在的边界。它不做云同步，不做账号，不做编辑，也不接 AI。不是因为这些功能不重要，而是因为一个查看器先应该把“打开并读完”这件事做干净。 ## 即览接在前两件事后面现在回头看，即览不是一个孤立的小工具。上个月我做 PPT Skill，是因为我相信 HTML 会成为 AI 生成演示内容时很自然的一种形态。它不一定取代 PowerPoint，但在“快速生成一个能讲的东西”这件事上，HTML 足够轻、足够开放，也足够适合模型直接生成。我做 CodePilot，是因为我相信 Markdown 会成为 AI 协作里很自然的数据和记忆载体。它不是最漂亮的格式，但它最容易被人、模型和工具同时使用。即览接的是第三步：这些格式不能只停在“生成出来”那里，还得让人真的能打开、能读、能收起来。前两件事偏生产，即览偏消费。 AI 已经能生成 Markdown，也能生成 HTML。但如果这些文件一到手机上就断掉，那前面的生成体验再顺，也没有真正落到人手里。即览补的就是这个最后一公里。 ## 但这件事还远没结束即览现在补的只是最浅的一层：收到一个文件，把它打开。再往后，其实还有几个问题没有解决。比如管理。很多人的手机、网盘、聊天记录和各种 App 缓存里，已经散落着大量 Markdown 和 HTML 文件。它们不是没有价值，只是太分散，找不到，也管不起来。比如分享。即览解决的是“别人发给我，我怎么看”。但反过来，“我做了一份 HTML，怎么让别人顺手打开”，仍然麻烦。发文件，对方未必打得开；发链接，又需要自己找地方部署。比如跨设备。手机上读了一半，回电脑接着看；电脑上生成了一份报告，推到手机上读，这都很自然。但一旦做同步，就会碰到账号、云端、隐私和复杂度。即览现在还很小，小到我不太想把它包装成一个大产品。但它正好卡在我自己每天都会遇到的缝里： AI 把内容生成出来了，可我只是想在手机上好好看一眼。你也经常被 Markdown、HTML、网页 PPT 这些文件硌到的话，可以试试。 > TestFlight：https://testflight.apple.com/join/sv7KTqn9 也欢迎聊聊你们怎么看这件事：在 AI 参与之后，文档、展示和阅读到底会变成什么样。

译即览是一款iOS/iPad应用，解决手机端无法正常打开AI生成的.md、.html等文件的问题。它本地渲染，无需上传或注册，有8000个TestFlight名额。作者引用Obsidian观点：.md正成为AI文件交互的“谢林点”；Claude Code团队认为HTML更适合展示层。即览定位纯粹：仅打开、阅读和收藏，不编辑、不云同步、不接AI。支持.md/.html/.txt及.zip网页文件，动态脚本默认关闭以确保安全。

meng shao@shao__meng · 6月4日18

Microsoft：我们发了好多新模型、我们 Copilot 更 NB 了，好像我们又又又进入 AI 领域了？

译推文调侃微软发布大量新模型并声称Copilot性能增强，然而给人的感觉像是“又又又进入AI领域”，暗示其在AI竞争中存在感不足。引用推文描述了其他AI公司现状：OpenAI出问题后重置，Anthropic封禁账号，Google发布新模型却无人关注。整体呈现AI巨头间的混乱与关注度差异。

向阳乔木@vista8 · 6月4日58

跟朋友聊天，他提到去年千问统计的年度Top10提示词，主题如下： 1. 股票 2. 八字 3. 情感咨询 4. 朋友圈文案 5. 景点推荐 6. 双色球号码 7. 失眠 8. 解答这道题 9. 离婚财产分割 10. 人生的意义总之，感觉用 AI 做 2C 出路很少。 1. 搞钱/省钱/变聪明：直接产生经济回报或能力提升。炒股，折扣购物，副业流水线。消耗token获得产出物，产出物带来金钱。 2. 懒人向/省时间：刷医院挂号、买火车票、把微信群里老婆交代的10件事自动加进日历和购物车。愿意付的钱少，因为个人时间不值钱。 3. 情感/养成向，情绪价值：数字分身，宠物，玄学等。消耗token带来情绪满足

译千问统计年度Top10提示词：股票、八字、情感咨询、朋友圈文案、景点推荐、双色球号码、失眠、解答这道题、离婚财产分割、人生的意义。作者认为AI 2C出路有限，三类：直接赚钱、懒人省时（付费意愿低）、情感情绪价值，整体空间狭窄。

meng shao@shao__meng · 6月4日63

工程、产品、设计正在融合成一种「Builder」角色？不要听投资人、卖课博主们随口造概念、卖焦虑！现实工程中，绝非如此！Cursor 团队 @leerob 帮咱们客观梳理。「角色合并」被说得太简单了！即便公司里有一千个 Member of Technical Staff（MTS）头衔，组织里仍需要有人把产品或设计当作自己的 Main Thing™——深度、优先级、问责都集中在一件事上。 MTS 本身未必错，但在他看来，它常被用来包装一种被稀释的「人人都是 builder」话术：头衔变模糊了，责任并没有消失。 AI 降低了写代码门槛，没有降低系统复杂度代码生成变容易，不等于能安全、可持续地交付软件。若非工程师大量产出低质量代码（AI Slop），又缺少强工程师去约束架构、债务和边界，痛苦会后置：维护、事故、协作成本会爆发。隐含判断：Builder 叙事容易低估「驯服复杂度」这件事，而这仍是工程的核心价值之一。硅谷叙事存在「用创业公司过度拟合全行业」初创公司有时是行业变化的领先指标，这点他承认。但把「小团队里一个人干多件事」推广到所有组织，会失真。他用摩根大通反问：大型、强监管、流程重的公司里，PM 是否真能兼工程与设计？他的预期是：极难，甚至不现实——不是因为人不够聪明，而是因为岗位结构、合规、风险、分工与政治成本不同。真正难颠覆的是「人的那一面」，不是工具那一面岗位边界不只因技术栈而存在，更因组织记忆、权力与激励而固化。比如内部政治、15 年无人文档化、靠个人维系、知识垄断与岗位安全捆绑等。AI 很难一夜抹平这些。专业化不会消失，AI 对知识工作的冲击会很慢他明确反对「专家/专队会过时」的想象。协作里，有一个真正懂某一域的人或团队，仍然高效、安心。对知识工作的 AI 颠覆，他判断会以十年计，因为瓶颈主要在社会学与组织学（信任、分工、权力、流程、问责），而不只是智力或技能本身。

译邵猛引用leerob推文，反对“工程、产品、设计融合成Builder角色”的观点。即便团队有大量MTS头衔，仍需要有人将产品/设计作为主业，责任不会因头衔模糊而消失。AI降低了代码生成门槛，但未降低系统复杂度——非工程师输出低质量代码（AI Slop）且缺乏强工程师约束架构，将导致后续维护成本爆发。初创一人多角色模式不适合摩根大通等大型受监管组织。真正难颠覆的是内部政治、15年无人文档化的关键系统、知识垄断等“人的一面”。专业化不会消失，与真正专家协作依然高效。AI对知识工作的颠覆将以十年计，瓶颈在于社会学与组织学。

Berryxia.AI@berryxia · 6月4日66

端侧模型的能力还是在被放大！ Gemma 4 12B和Google AI Edge彻底打通，现在直接在笔记本上就能跑100% on-device的Agentic workflow。 Mac用户最爽：AI Edge Gallery直接生成代码，AI Edge Eloquent支持语音输入然后实时编辑文本，两者都是全新上线。底层用LiteRT-LM把Gemma 4 12B本地Serve起来，整个过程零网络、零延迟、数据全在自己机器里。以前我们总觉得12B模型本地跑agentic任务还差得远，结果Google这次把模型、推理引擎、开发工具链一次性打包好，让普通开发者在笔记本上就能把AI当成真正私有的、可连续执行的本地队友。这其实把行业当前最主流的路径直接反转了。大家都在卷云端更大模型、更低延迟，现在Google却用12B本地模型告诉你：真正的生产力跃迁，是把agentic能力彻底下沉到设备端，让AI成为你操作系统的一部分。

译谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合，开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具：AI Edge Gallery 直接生成代码，AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型，实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包，让开发者拥有私有的、可连续执行的本地 AI 队友。

ginobefun@hongming731 · 6月4日58

http://x.com/i/article/2062309781994704896 # BestBlogs 早报 · 06-04｜微软 AI 平台战略、Kimi Work、超级个体团队在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-04 ## 导语今天是 2026 年 6 月 4 日，欢迎收听 BestBlogs 早报 EP77。今日早报围绕三个各有侧重却指向同一命题的主题展开：微软 CEO 纳德拉在 Build 大会上罕见深度开麦，把「Frontier Intelligence Platform」战略逐层讲透，是企业 AI 转型少见的一手信源；月之暗面 Kimi Work Beta 正式落地桌面端，92% 代码由 AI 自主完成，Vibe Working 时代的序幕正式拉开；腾讯研究院历时一年的 3 万字报告，以量化公式拆解超级个体如何聚合成高效组织。三篇内容方向各异，共同指向同一个问题：人与 AI 协作的边界，正在以肉眼可见的速度重新划定。 ## 精讲一：⚡️萨提亚·纳德拉：Microsoft Build 上的 No Priors x Latent Space 特别跨界对话 Latent.Space · 评分 93 · 阅读全文背景：一次罕见的深度访谈微软 CEO 萨提亚·纳德拉在 Build 2026 大会上参加了 No Priors 与 Latent Space 联合直播访谈——这种跨越两档顶级 AI 播客的对话本身就是一件值得记录的事。纳德拉以「平台」思维成名，每次公开发言都会带出几个高密度的战略判断，而这次访谈尤为难得，因为他将平台转型战略、AI ROI 争议和工程师职能重塑三条主线同时打开，难得一见地把微软的内部逻辑讲得足够具体。三项核心判断一、「Frontier Intelligence Platform」：生态系统而非单一模型纳德拉明确指出，微软正转型为「Frontier Intelligence Platform」，其核心命题源于比尔·盖茨时代就奠定的平台哲学：一个真正的平台，应当能让用户从中创造出远超平台本身所能捕获的价值。落到 2026 年的具体实现上，这意味着每家企业——无论是 AI 原生公司还是传统大企业——都应能以「第一等参与者」的身份接入微软生态：在 OpenClaw 和 Scout 这样的多模型框架上构建自己的 Agent，依托 Work IQ 暴露出的企业上下文层调取组织知识，并把私有评测集（private eval）和运行轨迹数据作为一种新型的「Token IP」积累起来。这套逻辑的背后是一个重要判断：未来企业 AI 竞争壁垒，来自于自己积累的私有评测集和真实轨迹数据，而不是员工人数或采购了哪家模型供应商的服务。纳德拉用一个具体案例佐证：Azure 网络团队通过 Agent 系统 Miles，将 500 余名光纤运维人员的知识系统性地自动化——这不是「AI 辅助人工」，而是将人类专业知识转化为可持续运行的 Agent 系统。二、AI ROI 的双重对话：裁员焦虑与 SaaS 终结访谈触及了当前企业 AI 落地中最敏感的两条线：一方面，企业内部正在进行有关「Tokenmaxxing」与裁员的艰难对话——如何在效率提升中平衡员工关系；另一方面，「SaaS 终结」的判断开始被严肃讨论，因为 Build vs. Buy 的方程式已经发生根本性改变。在纳德拉的框架里，这两个议题都指向同一件事：当 AI 可以将大量脑力工作自动化时，传统 SaaS 的差异化优势（功能差异化）正在被侵蚀，企业自建 Agent 系统的边际成本已经低到不可忽视。他对这个话题的态度是坦然而非防御的——毕竟微软本身就是全球最大的 SaaS 供应商之一，能以这种开放态度讨论 SaaS 终结，本身就说明他对微软在下一轮竞争格局中的位置有足够的信心。三、「让不可能成为可能」：AI 的社会价值 Kevin Scott 在访谈中提出了一个更宏观的框架：AI 最大的价值不在于效率提升 30% 还是 50%，而在于让以前根本不可能发生的事变成可能——特别是教育和社会影响力领域。这个视角为整个访谈奠定了一个高于商业竞争的叙事基调。纳德拉的「平台哲学」与当前 AI 格局的关系值得特别注意的是纳德拉谈及「Token IP」的那段——他认为，企业真正的竞争壁垒不在于采购了哪家模型，而在于积累了多少私有评测集和真实运行轨迹数据。这与 Salesforce 的「数据护城河」论，与 Snowflake 的「数据共享」生态有异曲同工之处，但落到 AI 时代有了新的含义：谁的内部数据飞轮转得快，谁的 Agent 系统就能越来越准、越来越贵。微软的这套战略，把自己从单纯的工具供应商升级为「基础设施 + 生态平台」的双重角色——这是 Windows 时代的老路，但放在 AI 时代重走，有了截然不同的竞争纵深。为什么值得深读这篇访谈是目前质量最高的企业 AI 战略一手信源之一。纳德拉不是在讲 PPT 要点，而是在回应真实的尖锐问题——比如「微软自己最大的 SaaS 收入来自 Office 365，那 SaaS 终结论出来了你怎么看？」这类刁钻问题，他给出的答案既坦诚又有战略纵深。如果你在做企业 AI 转型决策，或者正在思考未来 SaaS 产品的护城河在哪里，这篇值得逐字阅读。原文是英文，访谈笔录格式，篇幅较长，建议先读 Latent Space 的编者按摘要，再选感兴趣的段落精读。 ## 精讲二：Kimi Work Beta 版邀你体验：你的工作，分我一半月之暗面 Kimi · 评分 92 · 阅读全文背景：从 Coding Agent 到 Working Agent 在 AI 工具的普及史上，「会写代码的 Agent」先于「会干活的 Agent」成熟——这并不令人意外，因为代码的正确性可以被自动验证，而知识工作的交付物往往边界模糊。Kimi Code 在工程场景中经过大量真实用户检验，已经建立起足够的信任基线；现在，月之暗面把这套 Agent 能力从终端（TUI）迁移到了普通知识工作者熟悉的桌面 GUI，并将用例从「写代码」扩展到了「做工作」。这就是 Kimi Work Beta 的起点：不是凭空发明，而是用已验证的 Agent 能力换一个受众群体。核心能力拆解架构层面：三源合一 Kimi Work 的内核是三层叠加的能力：底层是 Kimi Code 提供的本地 Agent 基础能力（安装和使用技能、运行定时任务）；中间层是在线版 Kimi Agent 的专业 Skill（建站、PPT、金融数据库、科研数据库、法律数据库）；顶层是 Kimi WebBridge——一个可以像真人一样操作浏览器的方案。这三层能力叠加，理论上覆盖了大多数知识工作者日常任务的全谱系。规模层面：最高 300 个子 Agent 复杂任务的真正瓶颈不是 AI 能不能干，而是单个 Agent 的上下文窗口和注意力有限。Kimi Work 的解法是 Agent 集群：系统可根据任务复杂度自动创建最多 300 个子 Agent 并行协作，底层模型 Kimi K2.6 支持 13 小时连续编码和 4000 余次自主工具调用。这不只是参数上的数字游戏——在办公场景案例中，Kimi Work 能读取本地文件夹里的产品方案、调用浏览器登录订阅数据库、分析 2400 余条用户评论，最终生成 128 页报告并一键转化为 PPT，整个流程无需人工接管。「以己为证」：AI 完成了 92% 的代码 Kimi Work 本身的开发过程是最好的演示。月之暗面工程团队使用 Kimi Code 等 Coding Agent 工具，在一周内完成了 Beta 版的 Mac 和 Windows 双端客户端。开发累计产出超过 5 万行有效代码，其中 92% 由 AI 自主生成。这是一个强信号：不是「AI 辅助人类写代码」，而是「人类监督 AI 完成代码」，角色主次已经发生了反转。三个典型场景月之暗面在发布文章中给出了三个不同领域的具体场景示范，值得逐一了解： - 金融场景：调研巴菲特近 10 年持仓 → 总结投资策略 → 生成并安装专用 Skill → 接入专业金融数据源分析个人持仓，整个链路全自动。 - 科研场景：清洗本地仿真数据集 → 总结特征规律 → 绘制学术图表 → 辅助完成论文，适合数据分析背景薄弱的研究者。 - 办公场景：读取本地文件 → 浏览器登录订阅数据库 → 深度调研 → 生成 128 页市场分析报告 → 一键转为 PPT，全程无需脱离一个入口。挑战与未知当然，Beta 版就是 Beta 版。Kimi Work 当前公开测试的重点，是在任务拆解、多 Agent 并行、工具调用、浏览器操作、本地文件处理和长交付物生成等方面验证能力边界——官方的表述是「以一天 N 版的速度迭代」，这既是坦诚，也是提醒：执行稳定性、交付质量和使用体验还在持续优化中。真正值得追问的问题是：对于不写代码的知识工作者，「任务拆解」和「结果验证」的门槛究竟有多低？Agent 执行 300 个子任务的过程，用户需要多少监督？这些问题的答案，将决定 Kimi Work 是成为下一个 Notion（所有知识工作者都用），还是更像 Cursor（技术人员的高端武器）。Beta 测试期正是回答这些问题的关键窗口。为什么值得关注从 Vibe Coding 到 Vibe Working，这一步跨越的不只是功能边界，而是 AI 工具潜在用户的数量级。全球程序员大约有 3000 万人，而知识工作者的数量在十亿级以上。如果 Kimi Work 能验证「非程序员知识工作者也能流畅使用 Agent 工作流」，那这是一个量级完全不同的市场入口。与此同时，92% 代码由 AI 完成这一数据，也让 Kimi Work 的发布本身成为一个值得研究的元案例：一款 AI 产品，正在用它自己的核心能力完成自身的构建。 ## 精讲三：超级个体时代｜腾讯研究院 3 万字报告腾讯研究院 · 评分 93 · 阅读全文背景：一份基于田野调研的量化报告腾讯研究院 AI 原生小组历时一年，通过内外部调研写成这份 3 万字报告——区别于大多数咨询报告从顶层框架往下推演，这份报告从底层涌现出发：关注的不是「组织应该怎么变」，而是「组织正在怎么生长」。这个出发点决定了报告的气质更接近人类学田野记录，而非管理学方法论手册。斯坦福 HAI《2026 人工智能指数报告》数据显示，全球 88% 的组织已在至少一项业务中采用 AI，但仅有 1% 的公司自认达到了「AI 成熟」状态——能把 AI 深度嵌入核心业务并产生系统性价值的企业，百中无一。这个 1% 与 88% 之间的巨大鸿沟，是整份报告想要破解的谜题。核心公式：组织竞争力的量化方程报告的分析框架浓缩为一个公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦这不是修辞，而是一个有操作意义的分析工具。三个变量分别对应三个可独立改进的方向： - 人才密度：单位团队中具备独立闭环能力的人占比——不是最聪明的人，而是能自主从「想法」走到「交付」的人。 - AI 杠杆：AI 实际嵌入工作流的深度和覆盖面——不是「买了多少工具」，而是工具真正进入了多少核心业务流程。 - 组织摩擦：一个想法从产生到变成可交付成果之间经过的等待、审批、对齐和信息衰减总量。三者关系是乘除而非加减：分子翻倍但分母不动，净效果打折；分母减半的效果等价于分子翻倍。这意味着减少组织摩擦（分母）的价值，与提升人才密度或 AI 杠杆同等重要，甚至往往回报更高——但这正是大多数 AI 转型项目忽视的部分。超级个体：四个结构性特征报告给出了超级个体的精确定义：借助 AI，一个人能够达到过去需要一个小团队才能达到的产出规模和影响半径。拆开来看，有四个结构性特征缺一不可： 1. AI First 的工作动线：AI 是工作的默认起点，而非遇到困难时的工具。「我先让 AI 跑，然后在 AI 的产出上做判断」——这个顺序上的差异，决定了 AI 杠杆能放大到什么程度。 1. 能力边界的量级跃迁：产出从提升百分之几十变为提升十倍甚至数十倍；同时，单人可以独立跑通过去需要产品、设计、研发、运营多角色接力的整条链路。 1. 主动性极强：天然的边界探索者，持续寻找 AI 能力的极限，不等待组织安排。 1. 影响力溢出：这是判定超级个体的关键阈值——高效个体只让自己变快，超级个体让团队变快。变革的种子是当同事「看到」你一晚上做出了他们一个月的产出时自然种下的。三种超级团队形态个体觉醒之后，下一步是团队涌现。报告梳理了三种超级团队形态：节点辐射（一个超级个体带动周围人改变工作方式）、网络协作（多个超级个体之间形成横向协作网，绕过层级）、AI 中枢（以共享的 AI 系统作为团队协作的核心基础设施）。三种形态并非互斥，成熟的 AI 原生团队往往同时具备多种特征。数据支撑：超级个体并非传说报告援引的量化证据值得记录：AI 可将任务时间减少约 80%；Cursor 约 60 人在约 3 亿美元 ARR 阶段，人效远超传统同规模 SaaS 公司。麦肯锡 2026 年调查显示，AI 已成为头部企业的战略性优势，而非运营工具。与今日其他内容的联系这份报告与今日另外两篇精讲形成了一个完整的叙事弧线：纳德拉描述的是平台层如何为超级个体提供工具；Kimi Work 展示的是工具层如何降低知识工作者的操作门槛；而腾讯研究院的报告，则试图回答当这些工具和平台都就位之后，组织层面会发生什么。三篇合读，会对「AI 时代的工作重构」有更立体的理解。报告的更深层主张：AI 转型与 AI 原生是同一命题报告有一个颇具洞见的统一命题，值得单独提炼：外界常常把「AI 转型」（存量大公司自我改造）和「AI 原生」（白纸起步的新创团队）视为两个截然不同的命题，认为传统企业想真正推进 AI 变革，最好的方式是另起炉灶、重组 AI 原生团队。但报告给出了一个反论：两者其实遵循同一底层逻辑—— - AI 转型 = 存量组织内部，超级个体逐步涌现，能力溢出带动团队进化 - AI 原生 = 超级个体从第一天就按新方式聚合两者的核心命题是同一个：超级个体如何聚合为超级团队。区别只在路径和约束不同，而非要解决的根本问题不同。这个视角对大公司中的 AI 推动者有很强的实操意义：你不必说服管理层「我们要重新造一个 AI 原生团队」，而是可以问「这家公司有没有在培育超级个体，有没有为超级团队的生长创造土壤」——这是一个更容易对话、也更有行动抓手的切入点。阅读建议全文 3 万字，建议分两阶段阅读：先读摘要、核心公式和超级个体四特征部分（约 30 分钟），获得核心分析框架；再按照兴趣选择章节深读——「三种超级团队形态」和「组织启示」两章最具实操价值。完整 PDF 可在腾讯研究院公众号后台回复「超级个体 2026」获取精致排版版本。 ## 速览今日另有 7 篇精选文章，快速了解行业动态： 1. 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌以周报自动化为切入点，提出核心框架：Agent 只是把「意图→代码」循环从月/周级压缩至分钟级，软件本质未变。文章以配置推送、身份鉴权等内部案例拆解 Infra 与 Agent 的摩擦点，提炼出四层设计原则（可理解、可操作、可感知、可追溯）。核心结论一针见血：「Agent 自主程度是 Infra 安全能力的函数」，而非模型智能。构建 Agent 系统的工程团队必读。阅读全文 → 2. 将 Gemma 4 12B 带到你的笔记本电脑：利用 Google AI Edge 解锁本地智能体工作流 Google DeepMind 最新开源模型 Gemma 4 12B 与 Google AI Edge 技术栈集成，使得在普通笔记本电脑上运行完全本地的智能体工作流成为可能。新增 macOS 版本的 Google AI Edge Gallery 和 Eloquent 语音听写应用，LiteRT-LM 现可通过 CLI 的 serve 命令直接提供兼容 OpenAI API 的本地端点，适合希望在本地部署 Agent 工具链的开发者。阅读全文 → 3. 一文读懂微软 Build 2026 开发者大会："Agent 优先"时代到来，一口气发七款自研模型微软 Build 2026 大会发布七款自研 MAI 模型（包括旗舰推理模型 MAI-Thinking-1、编程模型 MAI-Code-1-Flash、文生图模型 MAI-Image-2.5、转录模型 MAI-Transcribe-1.5 等）、Scout 智能体、MXC 系统级安全沙箱及 Project Solara 等产品，宣告「Agent 优先」战略全面落地。七款模型均从零训练、零蒸馏，将通过 Azure Foundry 及 Open Router 等平台向开发者开放。阅读全文 → 4. OpenAI 和 Anthropic 共同看好的 FDE：AI 时代的新岗位出现，旧分工松动｜对谈 Rolling AI 对话 Rolling AI 两位合伙人，深度剖析 FDE（Field Deployment Engineer，现场部署工程师）这一新岗位如何将 AI 从「能用」推进到「上岗」。FDE 角色横跨销售工程、解决方案架构和产品实施，是把 AI 产品真正嵌入客户业务流程的关键角色。访谈还通过「AI 副店长」等实际案例，拆解 Agent 如何重构企业组织与商业价值。关注 AI 应用落地的读者不要错过。阅读全文 → 5. Alphabet 超额认购股权融资约 850 亿美元，其中伯克希尔·哈撒韦投资 100 亿美元 Sundar Pichai 在推文中宣布，Alphabet 此次股权融资获得超额认购，总额约 850 亿美元，伯克希尔·哈撒韦出资 100 亿美元。资金将用于 AI 基础设施投资。巴菲特旗下基金押注 Alphabet AI 基础设施，是本周资本市场对 AI 算力需求表态最明确的信号之一。阅读全文 → 6. OpenAI 如何构建其数据智能体 OpenAI 数据平台团队为管理 1.5 EB、9 万个数据集、服务 4000 内部用户的数据平台，构建了一个他们自己形容为「相当朴素」的数据 Agent：单个 LLM + 六层上下文组装 + 缓存层 + 校验步骤。核心洞察：在强大数据基础设施支撑下，简单架构就足够可靠。同样是这套 Codex 驱动的能力，让他们在两个月内完成了 9 万张表、60 PB 数据的跨云迁移。阅读全文 → 7. Cisco CX 如何从聊天机器人走向 AI 原生企业智能体队友 Cisco CX 首席架构师 Carlos 在 Interrupt 26 大会上，讲述了 Cisco 如何把最初的续约聊天机器人，演进为基于 LangGraph 的 AI 原生智能体队友，服务覆盖 18000-20000 人的大型 CX 组织、管理数十亿美元的年度续约业务。重点分享了架构演进决策、组织推广策略和关键经验教训，是企业级 AI 落地的高质量实践案例。 📷阅读全文 → ## 补充阅读以下 6 篇内容延伸今日主题，按各自亮点简评：「悲观者正确，乐观者成功」，和好友亚婷聊聊 AI 行业的种种资深投资人庄明浩从 VC 底层逻辑出发，深度拆解 AI 浪潮下的创业范式、模型竞争终局及人类职业价值的终极拷问。「悲观者正确，乐观者成功」这一命题在 AI 时代有了新的涵义。适合想从投资人视角理解 AI 行业走势的读者。阅读全文 → S9E3 鲁豫对话蔡皋 | 我本布衣，种花种草种春天鲁豫与绘本画家蔡皋探讨在时代局限与个人困境中，如何凭借对艺术与生活的热爱，践行「我喜欢，我选择」的强大主体性，最终活出如岩石中开花般的倔强生命。今日 AI 话题密集，这一篇是难得的「离线」选项，适合需要换换频道的读者在一天结束时听。阅读全文 → Harmonic 如何基于 Deep Agents 重建 Scout，并通过 LangSmith 实现 4 倍留存提升 Harmonic 使用 LangChain 的 Deep Agents 和 LangSmith 重建了 Scout AI 智能体，将产品迭代周期从数月压缩到数天，第 1 周到第 4 周留存率提升 4 倍、平均会话时长提升 10 倍。对正在构建或重构 AI 产品的团队来说，这是一个兼具架构细节和产品指标的好案例。阅读全文 → 在 Codex 中构建和分享应用程序 OpenAI 在 Codex 中推出 Sites 新功能，用户可通过自然语言提示即时构建并部署 Web 应用，支持细粒度访问控制。对于关注「从提示词到上线应用」这一极简部署范式的开发者，这是值得一看的功能演示。阅读全文 → 我花了一个月评估不同的 OCR 引擎作者对 14 个 OCR 引擎在 93 份难度各异文档上进行了实际基准测试，结论是「OCR 是一个路由问题，没有单一最佳引擎」——Mistral OCR、LlamaParse 和 Claude Sonnet 在综合表现上超过传统引擎，成本也更具竞争力。做文档处理产品或数据管道的工程师必读。阅读全文 → 超越聊天机器人的直接偏好优化 DharmaOCR 团队展示：在监督微调（SFT）之后应用直接偏好优化（DPO），使用模型自身的退化输出作为拒绝配对，能在所有测试的模型家族中持续减少结构化 OCR 任务中的文本退化问题，平均降低 59.4%，最优降低 87.6%。适合关注 LLM 微调和生产部署质量的工程师。阅读全文 → ## 今日阅读路径如果你的时间有限，以下是今日三条最高价值阅读路径：路径一（30 分钟）：企业 AI 战略决策者先读精讲三（腾讯研究院报告）获得分析框架，再读精讲一（纳德拉访谈）了解平台层战略，最后速览「微软 Build 2026 综述」补充产品细节。三篇合读，形成「组织理论 → 平台工具 → 产品落地」的完整视角。路径二（15 分钟）：AI 产品与工具用户直接从精讲二（Kimi Work Beta）入手，了解知识工作 Agent 的最新产品形态，再看速览中的「FDE 岗位剖析」，思考 AI 工具如何真正在企业内落地。如果时间还有富余，补充阅读「Harmonic Scout 重建案例」看产品指标。路径三（10 分钟）：工程师与技术决策者优先阅读速览中的「阿里 Agent Infra 四层原则」和「OpenAI 数据 Agent 架构」，两篇都是把 Agent 工程化落地讲得最具体的一手资料。再看补充阅读里的「OCR 引擎基准测试」，实用性极强。以上就是 BestBlogs 今天早报的全部内容。感谢阅读，明天见。

译微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略，主张企业AI竞争壁垒来自私有评测集与运行轨迹数据，而非模型采购；Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端，基于Kimi K2.6模型，支持最高300个子Agent并行、13小时编码、4000余次工具调用，能自主完成金融调研、科研数据分析和128页报告生成；开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。

Orange AI@oran_ge · 6月4日25

硅谷英文AI推的焦虑程度是中文AI推的100倍。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日20

Lawyers, too, are cooked "When law professors were handed a stack of anonymized answers to student contract questions and asked to pick the better one, they picked AI 75% of the time"

译律师们，也完了 "当法学教授收到一堆匿名的学生合同法问题答案并让选出更好的那个，他们75%的时候选了AI"

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日44

PAPER: We used state-of-the-art LLMs to prove AI still can't do X THE STATE-OF-THE-ART LLMS:

译论文：我们使用最先进的大语言模型来证明AI仍无法做到X 最先进的大语言模型：

SemiAnalysis@SemiAnalysis_ · 6月4日15

The five stages of Claude, @JeremieEO is currently at Stage 1... ACCEPTANCE.

译Claude的五阶段，@JeremieEO目前处于第一阶段... 接受。

Fei-Fei Li@drfeifei · 6月4日78

http://x.com/i/article/2062244283940544512 # A Functional Taxonomy of World Models > “The world is everything that is the case.” — Ludwig Wittgenstein, Tractatus Logico-Philosophicus, 1921 ## The world is not made of words. In an earlier essay, we argued that spatial intelligence is AI’s next frontier and that world models are the path to it. Here, the World Labs team and I want to go one level deeper: of the many things now being built and called ‘world models,’ which functional pieces actually compose that capacity — and what is each one for? Language models have given machines an extraordinary command of concepts, vocabulary, and reasoning, but the physical world, virtual or real, runs on a different substrate. Where language models learn the statistical structure of text, world models learn the statistical structure of space and time: how light falls on a surface, how a garden looks from an angle no camera has captured, how objects respond to force and follow the laws of physics. That makes “world model” one of the most important and most overloaded terms in AI today. Computer vision, robotics, reinforcement learning, and generative AI each claim to be building world models, and each means something quite different. A video model that produces gorgeous but physically impossible flames, a language model improvising a playable game, and a physics engine that faithfully simulates combustion all go by the same name. The ancient Greeks could never agree on what the world was made of, whether fire, water, or indivisible atoms, because “world” was never a single thing. It was always a stand-in for whatever totality a given thinker needed to reason about. AI has inherited the same problem, at exactly the moment when the field needs precision. ## The loop beneath the taxonomy Cutting through that confusion starts with a diagram older than any of the technology in question. Reinforcement learning textbooks, including the canonical Sutton and Barto, have used a version of the same picture for decades to describe how an agent interacts with a world. The formal name for this picture is the partially observable Markov decision process, or POMDP, and the original definition of the term “world model” belongs to that tradition. An agent, which can be a person, a robot, or a software system, takes actions. Those actions affect the state of the world. The agent never sees the state directly. What reaches the agent are observations: the photons that fall on a retina, the readings from a sensor, and the pixels in a video frame. New observations inform new actions, and the loop continues. The word “state” needs unpacking, because the meaning shifts from field to field. This is not the chemist’s state, the difference between solid, liquid, and gas. This is the physicist’s and roboticist’s state: a complete description of what is happening in the world at a given moment, including every object, every position, every velocity, every property. State is the underlying reality of the world; complete in principle, but never directly visible to any agent inside it. Observations are an agent’s partial view of that reality. Actions are what the agent does in response. This loop — agent to action to state to observation and back — is the structure that gave the modern term “world model” its technical meaning. The phrase itself is older, traced to Kenneth Craik’s 1943 proposal that minds reason by running “small-scale models” of reality, and carried into neural networks by the late 1980s and early 1990s. And the loop also explains what people mean by the term today. The different things now being called world models are in fact different projections of this same loop. Each one outputs a different piece of it. ## Three functions of a world model The first kind of world model is a renderer. A renderer outputs observations in the form of pixels meant for human eyes, and the quality that matters most is visual fidelity. A video model that turns a text prompt into a cinematic drone shot is a renderer. So is an interactive system like Google’s Genie 3, or World Labs’ own RTFM, where the model generates frames in real time conditioned on user input. The model carries no explicit understanding of three-dimensional structure. It produces what a viewer would see, not what is. The buildings in the drone shot may look flawless from above, but try to drive through the city below and they fall apart. The second kind is a simulator. A simulator outputs state: a geometrically, physically or dynamically faithful representation of the world that humans and computer programs can both compute on and interact with. Where the renderer’s contract is purely visual, the simulator’s contract is structural, demanding geometry that holds up under inspection, physics that respects Newton’s laws, and dynamics that behave the way the world needs to behave given the laws of physics. A simulator serves two consumers at once. Human professionals such as architects, designers, filmmakers, and game developers need accuracy beyond visual plausibility. Computer programs such as reinforcement learning agents, robot controllers, and autonomous vehicles use simulators as training grounds where they can interact with the world at scale, testing scenarios that would be dangerous, expensive, or impossible to run in reality. The third kind is a planner. A planner outputs actions. Given an observation and a goal, a planner answers the question of what the agent should do next. This is, in many ways, the inverse of the renderer. Where a renderer takes actions as input and produces observations, a planner takes observations as input and produces actions, closing the perception-action loop. Vision-Language-Action models, model-based systems, and the new wave of World Action Models are all attempts at planners: systems that can decide what a robot should do in an unstructured world. These three categories describe most of what is actually shipping today, and the distinction between them is useful in practice. The categories are not, however, fundamentally separate. The same underlying knowledge of how the world works—geometry, physics, dynamics—sits beneath all of them. A model that can render a cup from any angle ought, in principle, to be able to simulate what happens when the cup is pushed and plan a hand to pick the cup up. Increasingly, the most interesting research deliberately blurs the boundaries between the three. ## Why simulation is the linchpin Of the three categories, the simulator gets the least public attention, and is the most consequential of the three. This essay addresses this asymmetry. The renderer is by far the most commercially mature. A number of image- or text-to-video products are expanding in the consumer or enterprise markets rapidly. Google’s Nano Banana model has put renderer-quality image generation in the hands of potentially hundreds of millions of users. The technology is real, and the markets are real. Yet renderers optimize for visual plausibility rather than physical accuracy, and that ceiling matters. Their outputs are beautiful, but they cannot be trusted to design a building or train a robot. The planner is the most intriguing and the most nascent, closely connected to the rapidly evolving field of robotic learning. The field has produced robotic demos in the last two years that look impressive in videos, but candor is required about what those demos actually show. Almost all have been confined to heavily constrained laboratory setups, with narrow object sets and short task horizons. None have been validated at the complexity, variability, or duration that real-world deployment demands. The gap between a compelling demo reel and a robot that reliably works in a kitchen, a warehouse, or an operating room remains vast. The commercial bets are nonetheless substantial. A wave of well-funded entrants is racing to ship general-purpose planning systems, while the largest infrastructure players are positioning planning atop broader simulation stacks. A robot that can plan is a robot that can work, and the entire industry is racing to be the one that gets there first. Simulation is the bridge between the two. If language is an abstraction of the world and pixels are a projection of it, then geometry, physics, and dynamics are the world itself. A simulator must work at that level: the structural backbone from which both visual appearance (for renderers) and action consequences (for planners) can be derived. A model that masters simulation can project its understanding into pixels for human consumption, and into action predictions for embodied agents. A model that masters only rendering, or only planning, cannot do either. The commercial surface area is enormous. NVIDIA’s Omniverse alone targets what the company estimates as more than a trillion dollars of addressable market in factories, warehouses, supply chains, and digital twins. Robotics training, autonomous vehicle testing, architectural visualization, engineering, and drug discovery all depend on something simulation-shaped. The hardest open problems in the field live there too. Three-dimensional data with explicit geometry, material properties, and physical annotations is orders of magnitude scarcer than the internet video that renderers train on. The sim-to-real gap, which is the difference between how things behave in simulation and how they behave in reality, persists. Generative simulators introduce a new risk on top of that: AI-generated geometry can look correct while containing self-intersections or wrong scale that produce nonsensical physics. Multi-physics simulation at scale, where rigid bodies, deformable objects, fluids, and cloth all interact, remains orders of magnitude more expensive than single-domain simulation. At World Labs, Marble is our first move into this territory. It takes multimodal prompts (text, image, video, or spatial sketch) and generates explorable 3D environments, outputting Gaussian splats for visual exploration alongside collision meshes a physics engine can operate on. But Marble is only the first chapter of a much longer arc being written across the field as the lines between rendering, simulation, and planning begin to collapse. ## Where the boundaries are collapsing and what comes next But more is to come. The most important pattern in the field right now is that the three categories are starting to blend into one another. The shared insight is that the knowledge required to render a world, simulate it, and act in it is largely the same. Continuing the earlier example, a model that truly understands how a cup sits on a table (its geometry, material properties, response to force, etc.) should be able to render that cup from any angle, simulate what happens when the cup is pushed, and plan for a hand to pick the cup up. The three categories are three projections of a single underlying understanding. For example: a small but growing number of recent work from various robotics labs have demonstrated that—at least conceptually—a pretrained video renderer can be used as the backbone for joint world-and-action prediction, suggesting a bridge between the renderer and the planner by letting one model imagine what will happen and what to do. World Labs’ Marble already outputs Gaussian splats and collision meshes from a single model, dissolving the boundary between the renderer and the simulator. Every level is moving from passive output to interactive system, with renderers becoming action-conditioned, simulators generating worlds that are more controllable and editable, and planners deliberating rather than just reacting. The logical endpoint is a unified world model: one foundation model that can render photorealistic views, produce physically accurate structure, and plan action sequences, switching between output modalities depending on what the downstream consumer needs. We will still face a number of daunting challenges. The data picture is uneven, with renderers awash in internet video while simulators and planners face acute shortages of 3D assets and robot demonstrations. Optimizing for visual beauty can sacrifice the precision a robot or a high-fidelity simulation needs. Reconciling these tensions inside a single architecture is the defining open problem in world model research today, and this is what World Labs sets out to do as we continue to evolve Marble. The direction, however, is clear. The same bet the field has been making since the late 1980s — that a sufficiently rich model of the world is all that any agent needs to see worlds, build them, and act in them — is the bet now driving an entire generation of research. What gives that “big bet” weight is the convergence already underway: three threads, each already driving and shaping multi-billion-dollar industries on its own, that began as separate research programs are starting to behave like one. Taken together, as the boundaries between them collapse, they will reshape something larger: the relationship between machine intelligence and the physical world it inhabits - the long arc of spatial intelligence. Language gave machines a way to talk about that world. World models are how machines will finally come to understand, imagine, reason and interact with it.

译World Labs团队与李飞飞发文，梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计，世界模型学习空间与时间统计（如光照、物理规律）。基于部分可观马尔可夫决策过程（POMDP）框架，智能体通过动作影响世界状态，观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影：第一类为渲染器，输出给人眼看的像素，以视觉保真度为核心。文章着重于概念分层，未给出具体模型名、参数或基准分数。

Yuchen Jin@Yuchenj_UW · 6月4日63

More and more engineers are now burning more money on AI tokens than their base salaries. Tech companies are facing a brutal dilemma: > let everyone tokenmaxx and move at AI speed > add token budgets and kill the vibe > lay off 50% of people and give the rest unlimited tokens

译越来越多的工程师现在在AI token上花费的钱比他们的基本工资还要多。科技公司面临一个残酷的两难选择： > 让每个人尽情使用token并以AI速度前进 > 增加token预算并扼杀氛围 > 裁掉50%的人，给剩下的人无限token

Ethan Mollick@emollick · 6月4日60

Most people, including really accomplished people, don't have an accurate mental model of how LLMs operate (and why would they?) You see this in wide beliefs that AI is just copying from known sources, or that it only produces average answers, or that it can't generate new ideas

译大多数人，包括非常有成就的人，对LLM的运作方式没有准确的认知（他们凭什么有呢？）你可以从广泛的观念中看到这一点：认为AI只是从已知来源复制，或者它只能产生平均水平的答案，或者它不能产生新想法。

Lee Robinson@leerob · 6月3日61

"Engineering, product, and design are all merging into a 'builder' role" Yeah... I'm not so sure. This feels like an oversimplification and podcast talking point. Reality is a lot more complex. Even with 1000 "Member of Technical Staff" titles, someone still has to wake up and care 100x more about Product or Design than anyone else. It is their Main Thing™ That's not to say MTS titles are universally bad, but I think they're an example of this 'builder' talking point that's become bastardized. AI and coding agents have made generating code easy and yet... you're in for a world of pain if non-engineers ship a bunch of slop and don't have great engineers to tame the complexity. The SF hivemind has a tendency to overfit what works at startups for every company. And to be fair, sometimes this is true! Startups can be a leading indicator for how the industry is changing and often cause disruption. However, it is going to be incredibly hard to disrupt the extremely human parts of corporate jobs. You really think there's going to be a PM who also does some engineering and design on the side at JPMorgan Chase? This is true for the simple parts of most jobs, like people wanting to have ownership over something and do good work, move up a career ladder, support their family, get paid well, make an honest living... And also the hard parts: internal politics, some critical business system that has a bus factor of 1 which has been running for 15 years and isn't documented anywhere because it's that guy's job security. The real world has a lot of this stuff. It's easy to pontificate about all roles collapsing but it's actually really nice to have a specific person or team who is an expert in one thing that you can work with. I don't expect that to change. Further, I think AI disruption to knowledge work will take decades to play out because it is more fundamental to the human condition (e.g. sociological/organizational) than pure intelligence.

译Lee Robinson 认为该说法是过度简化的播客话术。现实更复杂：即便大量“技术专家”存在，仍需要有人百分百专注产品或设计；AI 虽让生成代码变易，但缺乏优秀工程师会导致灾难。硅谷常把创业公司经验套用于大公司，却难以颠覆内部政治、遗留系统等极度人性化的部分。他判断 AI 颠覆知识工作需要数十年，因为本质是社会/组织问题，而非纯智力问题。

SemiAnalysis@SemiAnalysis_ · 6月3日71

Google Cloud revenue showed a +63% y/y growth this past quarter. Microsoft Intelligence Cloud revenue showed a +30% y/y growth this past quarter. AWS revenue showed a +28% y/y growth. Despite this, AWS' margins increased 213bps q/q while the other CSPs lagged behind. How you sell tokens is become equally important to how much of it you sell. Bedrock's TaaS (token-as-a-service) business model with Anthropic has 3 parts: 🟠 fixed IaaS fee, 🟠 revenue share of the tokens, 🟠 and performance hurdles that trigger outperformance payments above certain token/spend thresholds. The risk with this business model is that there's no guaranteed take-or-pay floor so revenue can miss if adoption stalls but their bet paid off, primarily driven by Anthropic's addition of $21B net new ARR in a single quarter.

译Google Cloud营收同比增长63%，Microsoft Intelligence Cloud增长30%，AWS增长28%。但AWS利润率环比提升213bps，领先其他云服务商。AWS Bedrock与Anthropic采用Token-as-a-Service（TaaS）商业模式，包含三部分：固定IaaS费用、token收入分成、以及超额绩效支付（达到特定token/消费阈值触发额外付款）。该模式风险是无保底收入，但赌注成功，Anthropic单季度新增210亿美元净新ARR。

Alibaba Cloud@alibaba_cloud · 6月3日63

Agent performance is no longer about cost per token, but the cost to finish the whole task. We must treat inference as a whole operating system to turn tokens into real business value.

译智能体性能不再取决于每个token的成本，而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统，将token转化为实际的商业价值。

fofr@fofrAI · 6月3日31

I need to see a video of two of these playing each other in real life.

译一位开发者使用强化学习在模拟中训练AI智能体，随后部署到真实的机器人空气曲棍球台上。该机器人能以毫米级精度跟踪曲棍球，反应时间约20毫秒，足以挑战熟练的人类玩家。这标志着从预设编程规则到模拟学习后在物理世界执行的转变。主推文作者期待看到两个这样的机器人进行真实对战。

X.PIN@thexpin · 6月3日55

Alibaba, China's e-commerce and tech giant, has added Group CTO Wu Zeming to its Partnership Committee. His promotion from managing key AI initiatives signals the company's strong focus on AI. In fact, Alibaba expects its AI ARR to reach $4.2 billion by year-end.

译中国电商科技巨头阿里巴巴已将集团CTO吴泽明加入其合伙人委员会。他从管理关键AI项目晋升，标志着公司对AI的高度重视。事实上，阿里巴巴预计其AI年度经常性收入到年底将达到42亿美元。

meng shao@shao__meng · 6月3日36

因为鼓吹「程序员将在六个月内被全面取代」的自媒体们，在这六个月内，已经成功被程序员们用 Agent 取代了！！

译推文讽刺了一个现象：此前部分自媒体鼓吹“程序员将在六个月内被AI全面取代”，但六个月过去，这些自媒体本身反而被程序员利用AI Agent（智能体）工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

Chubby♨️@kimmonismus · 6月3日64

http://x.com/i/article/2061993838718382080 # What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 recap. Lets start with OpenAI, because it's bigger than one number. OpenAI is recasting Codex from a coding tool into a productivity app for everyone. Today they launched six role-specific plugins that make Codex useful without writing a line of code, from data analytics (Snowflake, Databricks, Tableau) to creative production (Figma, Canva, Shutterstock). 62 apps and 110 skills bundled in. Plus Codex Sites: in preview, Codex can now build interactive, hosted websites and apps (dashboards, planners, review workspaces) and share them by link across a workspace. This is the groundwork for merging ChatGPT, Codex, and the Atlas browser into one desktop app. The numbers behind it are exciting. Per an internal all-hands (via The Information): 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. And GPT-5.6 is already on the horizon. https://x.com/kimmonismus/status/2061961710823686489 On top of that, the milestone: the ChatGPT app crossed 1 billion monthly active users - the fastest app in history to that mark, in three years. Maps, YouTube, and TikTok each needed five to eight. But the main event was Microsoft Build 2026 in San Francisco. Three hours of Nadella, and the message was clear: Microsoft no longer just resells OpenAI, it ships its own. 7 in-house MAI models. Headlined by MAI-Thinking-1, Microsoft's first reasoning model, trained entirely on licensed data with no distillation from GPT. 35B active parameters, 256k context, and in Microsoft's own blind tests it beats Claude Sonnet 4.6 and matches Opus 4.6 on coding. Plus MAI-Code-1-Flash (rolling out to all GitHub Copilot tiers today), image models (already live in PowerPoint), transcription across 43 languages, and a new voice model. Suleyman claims one is 10x more efficient than GPT-5.5. The full enterprise / agent stack — this is where Build really lived: - GitHub Copilot app (preview): a native desktop app bringing agentic workflows out of the IDE, alongside a new GitHub Copilot CLI for the command line. https://www.youtube.com/watch?v=mv6MMQ2j128&source_ve_path=MjM4NTE&embeds_referring_euri=https%3A%2F%2Fgithub.blog%2F - Microsoft IQ (GA): the unified context layer for agents, combining Work IQ (workplace knowledge inside the M365 trust boundary), Fabric IQ (business semantics), Foundry IQ (enterprise knowledge + retrieval), and the new Web IQ (live web grounding that already powers Copilot and ChatGPT). Build once, reuse across GitHub Copilot, Foundry, and Copilot Studio. - Microsoft Foundry as the agent factory: Hosted Agents with sub-100ms sandbox cold starts and zero idle cost, Toolboxes, tracing and evals, an Agent Optimizer, and one-click publishing of any agent straight into Teams and Microsoft 365 Copilot (GA June). Fireworks AI's open models also went GA on Foundry. - Agent 365: the framework-agnostic SDK went GA (free, supports Microsoft Agent Framework, OpenAI Agents SDK, LangChain, Semantic Kernel). Local Agents (preview) can even discover agents like Claude Code and GitHub Copilot CLI on managed endpoints, and Microsoft 365 E7 now bundles Agent 365 with E5, Copilot, and Entra. - Project Rayfin (preview): a managed backend-as-a-service on Fabric, so developers can take agentic apps from prototype to production. - Azure Agent Mesh (announced, GA Q4): a control plane that federates agent execution across machines and geographies. - Project Solara — Microsoft's bet on agent-first hardware. A chip-to-cloud platform built from the ground up for devices that run AI agents instead of apps. It's based on a fork of Android (the Microsoft Device Ecosystem Platform, MDEP) rather than Windows, with enterprise security baked in via Intune, Entra ID, and Windows Hello, plus "just-in-time UI" that reshapes itself to whatever device it's running on. Microsoft showed two reference designs (not products it plans to ship itself) - A desk companion that signs you in with facial recognition, responds to voice, and surfaces your most pressing items from Outlook, Excel, and M365. Plug in a monitor and it becomes a full cloud-hosted Windows machine. - The agent handheld / wearable badge - a reimagined employee ID card. A fingerprint button wakes an agent in one press, a single tap records and transcribes a conversation, and a built-in camera lets the agent act on what you're looking at. Fully mobile with 5G and a touchscreen. - Microsoft Discovery (GA): an agentic platform for scientific research, already used by BHP, GSK, and Syensqo. Plus Frontier Tuning (private preview), which lets agents learn your business inside your compliance boundary -OpenClaw comes to Windows. Peter Steinberger — the "ClawFather" — was actually on stage. His viral open-source agent (one of the most-starred GitHub projects ever, now MIT-licensed under a foundation) now runs natively on Windows through Microsoft's new containment layer. The live demo leaned into the obvious anxiety: someone asked OpenClaw to wipe a messy desktop, and it couldn't, because its container was set to read-only. Microsoft is promising "very granular" control over what files an agent can touch. The theme over all of it: Microsoft is recasting Windows, Azure, GitHub, and M365 as the operating environment for agents — moving developers from writing code to orchestrating systems of agents. Surface RTX Spark Dev Box. A mini workstation on NVIDIA's new RTX Spark superchip: 1 petaflop of AI compute, 128GB unified memory, running 120B-parameter models locally with a 1M-token context. No cloud call. A direct shot at per-token pricing. Mayo Clinic. Microsoft and Mayo are building a frontier model for healthcare. Mayo owns it; long-term it's meant to support clinicians and improve how Copilot answers health questions. Majorana 2. The new quantum chip, with claims of 1,000x higher reliability and a commercial quantum machine by 2029. Caveat: the claims rest on a non-peer-reviewed preprint, and independent physicists are openly skeptical. I wouldn't celebrate this one uncritically. Copilot Super App? Teased, not shown. Nadella said Chat, Cowork, and Code would land in one Copilot app "come summer." The through-line on both sides: nobody's selling models anymore. OpenAI is turning Codex into the operating system of work; Microsoft is turning its whole stack into an agent platform. 2026's race is officially a platform race.

译OpenAI将Codex从编码工具升级为生产力平台，新增六大角色插件并集成62个应用，还推出Codex Sites功能。关键数据显示，Codex周活达500万，企业收入周环比增长50%，GPT-5.6即将发布，ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈，推出自研推理模型MAI-Thinking-1（35B参数，256k上下文），其在编码盲测中超越Claude Sonnet 4.6。同时，微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层，并公布了专为智能体设计的硬件项目Solara。

Ethan Mollick@emollick · 6月3日53

My timeline seems to have people surprised that U Chicago is getting Claude, but tons of schools (including U Penn where I teach) have school-wide AI There are lots of things that need to be figured out about AI & scholarship but safe & equitable access is a necessary foundation

译我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶，但许多学校（包括我任教的宾夕法尼亚大学）都已实现全校范围的AI接入。关于AI与学术研究，仍有许多问题需要解决，但安全且公平的接入是必要的基础。

ginobefun@hongming731 · 6月3日70

http://x.com/i/article/2061947122350751744 # BestBlogs 早报 · 06-03｜动态工作流、Copilot 桌面、AI 工程范式在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-03 > EP76 · 2026-06-03 — AI 工程的范式正在被重写：Claude Code 突破单一上下文窗口、为每个任务动态生成编排脚本，GitHub Copilot 以智能体为核心推出桌面控制中心，提交量已突破 14 亿次/月。与此同时，腾讯云工程师从控制论视角论证，大模型是史上首个「认知引擎」，软件工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。本期还涵盖任务保真度缩放定律、MiniMax M3 开源模型、NVIDIA Cosmos 3 及机器人供应链深度拆解，一并呈现这场变革的全貌。 ## 导语今天是 2026 年 6 月 3 日，AI 工具链的底层逻辑正在发生一次结构性升级。 Anthropic 正式推出 Claude Code 动态工作流：Claude 不再只能在单一上下文窗口里规划并执行，而是能即时为每个任务生成一套专属的 JavaScript 编排脚本，自主决定要启动多少个子智能体、使用哪种模型、是否在独立的 worktree 里隔离运行。触发词只需一个：ultracode。与此同时，GitHub 在 Microsoft Build 上发布了 Copilot 桌面应用——一个为并行 Agent 开发打造的统一控制中心。My Work 视图让你同时监管多条进行中的 Issue 和 PR，Canvas 面板实时显示 Agent 的工作进度，Agent Merge 全程处理 CI 和代码审查。在所有这些工具铺开的背景下，GitHub 的每月提交量已经突破 14 亿次，同比翻倍。本期精讲之外还有 7 篇速览，覆盖任务保真度缩放定律、AI 原生工程组织打造、MiniMax M3 开源模型、NVIDIA Cosmos 3、机器人供应链深度拆解、Agent 存算分离架构，以及贴吧 AI CR 落地 10 周后 bug 密度下降 66.87% 的完整实践。本期精讲三篇： - 精讲一：Anthropic 详解 Claude Code 动态工作流的工作原理与最佳实践 - 精讲二：GitHub 在 Microsoft Build 上推出以智能体为核心的 Copilot 桌面应用 - 精讲三：腾讯云工程师以控制论框架重新审视软件工程五十年与 AI 范式革命 ## 精讲一：为每项任务量身打造：Claude Code 中的动态工作流 | Claude Claude Code 面向的任务场景越来越复杂，但默认 harness 有一个固有限制：规划和执行必须在同一个上下文窗口里完成。随着任务变长、结构变复杂，这个窗口会越来越拥挤，开始出现「智能体懒惰」——Claude 开始抄近路；「目标漂移」——Claude 偏离了最初的任务目标。上周，Anthropic 发布了动态工作流（Dynamic Workflows），为这个问题提供了根本性的解法。动态工作流的工作原理动态工作流的核心是让 Claude 自己写一个 JavaScript 编排脚本，然后执行这个脚本来完成任务。这个脚本可以使用几个特殊函数来生成和协调子智能体（subagents），同时也可以调用标准的 JavaScript 工具：JSON、Math、Array 等。与静态工作流的关键区别在于两点。首先，动态工作流可以自主决定给每个子智能体使用哪个模型——这意味着 Claude 会把复杂的推理任务分配给更强的模型，把简单的信息采集交给更快的模型，在成本与质量之间动态权衡。其次，子智能体可以在独立的 worktree 里运行，实现真正的环境隔离，避免多个子任务互相污染工作状态。如果工作流被用户中断（比如关掉了终端），恢复会话后工作流可以从中断点继续，不需要从头再来。它解决了哪些具体的失败模式 Anthropic 在文章里明确列出了动态工作流针对的几类失败场景： - 长任务的上下文污染：单一窗口处理长任务时，早期的规划信息和后期的执行信息混在一起，Claude 开始迷失方向。 - 大规模并行任务：比如同时处理 80 份简历评级、同时从多个 Slack 频道抓取数据——这类任务天然适合多路并发，但默认 harness 无法原生支持。 - 高度结构化任务：比如让多个 Agent 分别扮演投资人、用户、竞争对手，从不同角度撕碎一份商业计划书。 - 对抗性任务：让两个子智能体互相挑战，形成一种反馈机制来提升结果质量。文章给出的几个示例 prompt 很有启发性：「这个测试大约每 50 次运行就会失败一次，用工作流来复现它，提出竞争性假设，不到找到能存活于证据的那个假设不要停」；「拿我最近 50 个会话挖出我反复在纠正的错误，把那些反复出现的写进 CLAUDE.md 规则」。这两个例子都展示了动态工作流的典型场景：需要反复迭代、需要并行比较、或者需要结构化协作的复杂多步任务。常见的工作流模式 Anthropic 总结了 Claude 在构建工作流时会组合使用的几种基本模式： - 分类执行（Classify-and-act）：先用一个 Agent 对输入进行分类，再把不同类别的任务分配给专门的下游 Agent。 - 排序（Sorting）：把大批量列表（比如 1000 条支持工单）按定性标准排序——单次 prompt 质量会随列表变大而退化，工作流可以分批处理再汇总。 - 竞争性验证（Adversarial check）：让一个 Agent 生成，另一个 Agent 专门找漏洞，循环直到结论站得住脚。使用建议动态工作流会消耗更多 token，不适合日常简单任务。最适合的场景是：任务足够复杂（单一上下文处理时质量会退化）、任务足够高价值（额外的 token 成本值得付出）、任务有结构化并行需求（多个角度、多个数据源、多个竞争性假设）。触发方式是在 prompt 里使用关键词 ultracode，或者明确要求「用工作流来完成这件事」。Anthropic 提醒，最佳实践仍在演进，建议首次使用时从相对简单的并行任务开始积累直觉，再逐步应用到更复杂的高价值场景。动态工作流与默认 harness 完全兼容，不需要时可以无缝回退，无需额外配置。对于正在用 Claude Code 处理复杂多步骤任务的工程师，这篇官方介绍值得仔细阅读：查看原文 ## 精讲二：GitHub Copilot 应用：以智能体为核心的桌面体验当 Agent 变成开发工作流的常态，管理多个并行 Agent 本身就成了一个新问题。你早上打开电脑，三件工作已经在推进中：一个 Agent 在排查生产 bug，一个 Agent 在实现积压需求，第三个 Agent 在处理代码审查反馈。你需要一个地方能同时看到这三个进度，能介入、能重定向、能测试、能合并。原有的开发工具并不是为这种工作方式设计的。在 Microsoft Build 2026 上，GitHub 发布了 Copilot 桌面应用，正是要填补这个空缺。 My Work：统一管理所有进行中的工作 Copilot 桌面应用的核心入口是 My Work 视图。这个视图汇聚了所有关联仓库里当前进行中的工作：活跃的 Agent 会话、Issue、PR、后台自动化任务。开发者不再需要在多个标签页之间切换来追踪不同 Agent 的状态，一个视图看全局。 worktree 隔离：Agent 会话互不干扰每一个 Agent 会话都在独立的 git worktree 环境里运行。这与 Claude Code 动态工作流的设计理念高度一致：隔离是并行 Agent 开发的基础——不同 Agent 的工作状态不会互相污染，合并时也有清晰的边界。 Canvas：双向协作面板 Canvas 是一个可视化的双向协作区域。Agent 工作时，你可以在 Canvas 里实时看到它的工作进度，也可以在任何节点插入反馈、调整方向。这种「异步介入」的交互模式与传统的「等待 Agent 完成再审查」不同，更像是一个真实存在的协作伙伴，只是它在你后台异步跑，你随时可以看进度并给意见。 Agent Merge：全程自动化 CI 和代码审查 Agent Merge 功能负责管理从 Agent 提交代码到合并的整个流程，包括触发 CI 检查、处理代码审查反馈、最终完成合并。开发者的精力可以更多集中在方向判断和质量审核，而不是流程管理。 Copilot 代码审查的定制化扩展与此同时，GitHub 还扩展了 Copilot 代码审查的能力：开发者现在可以通过自定义 Agent skills、MCP 服务器连接和可配置的 Actions 工作流，让每次代码审查都反映自己团队的标准、内部系统和工程上下文。代码审查还新增了「中等层级审查」（medium tier review）选项，在快速审查和深度审查之间提供了更细粒度的控制。规模背景：14 亿次提交/月 GitHub 在发布中披露了一组数据：当前平台的每月提交量已经突破 14 亿次，同比近乎翻倍；GitHub Actions 每周运行时间超过 20 亿分钟。这个增速直接说明了为什么 GitHub 要在这个时间点推出 Agent 原生的控制中心——现有工具的设计假设已经跟不上实际工作流的演进节奏。对于正在将多个 Copilot Agent 整合进开发工作流的团队，这篇发布文章是了解 GitHub Agent 原生方向的第一手资料。Copilot 桌面应用目前已向现有 Copilot Pro、Pro+、Business 和 Enterprise 用户开放技术预览，感兴趣的团队可以直接申请加入：查看原文 ## 精讲三：AI 软件工程范式革命的思考这篇来自腾讯云开发者的长文，是近期读到的关于 AI 与软件工程关系最系统、最有历史纵深的一篇思考。作者不是在讨论某个工具或某个技巧，而是从工程史的视角，对软件工程过去五十年的本质做出了一次重新定性。软件工程是过去五十年最不彻底的工程作者从控制论的视角，梳理了经典工程门类的成功路径：机械、化工、电力、自动化，这些领域都靠同一个范式完成了工程化——「消耗能源，把人脑参与的低阶认知回路固化成物理装置」。蒸汽机的离心调速器、化工厂的恒温器、电网的调度装置，本质上都是同一件事：让原本需要人来盯着、调整、判断的事情，由一台烧煤或通电的设备自己完成。不确定性被大规模消除，同样的输入产出稳定可预期的结果。软件工程卡在了这条路上。软件开发要处理的是抽象、分解、推理、创造——这些是高阶认知，没法像调速器那样固化成物理回路。五十年来，敏捷、Scrum、DevOps 解决的都是同一个问题，用的是同一种方式：优化堆人力的方式，但没有改变「必须靠人力堆」这个事实。这就是作者对「软件工程是最不彻底的工程」的定义：它在工程的形而上学层面是个残缺品——所有兄弟门类都完成了「能源替代低阶智能」这个动作，唯独软件没有。大模型是史上第一个「认知引擎」大语言模型做到了经典工程从来没做到的事：输入算力，输出能理解需求、生成代码、做逻辑推理的高阶认知产物。放到工程史的坐标里： - 经典工程：能源 → 低阶智能（机械调节、自动控制） - 大模型：能源 → 高阶智能（理解、推理、生成、决策）作者的判断是：大模型和蒸汽机的工程史地位是平行的。蒸汽机让「做功」第一次能源化，大模型让「认知」第一次能源化。软件工程「真正降临」的时刻，不是 Scrum 流行的时候，不是 DevOps 普及的时候，而是大模型让「能源换高阶智能」成为可能的这个时刻。在此之前所有的「软件工程」，严格说都是软件作坊的优化版。但这只是入场券，不是终局大模型带来了新的不确定性：幻觉（输出看起来合理，悄悄就错了）、漂移（同样的输入，今天和明天给出不一样的结果）、不可解释（没法看进它的决策过程）。这意味着大模型并没有消除不确定性，只是把「人的不确定性」换成了「模型的不确定性」。真正需要的是一整套新的工程原则——不再是「亲手消除每个微小的偏差」，而是「设计一个能自我纠偏的系统，并处理系统自己纠不回来的剩余偏差」。作者引入了冯·福斯特 1970 年代提出的二阶控制论：一阶控制论是「观察并控制被控对象」，二阶控制论是「观察并控制『观察并控制』这件事本身」。投射到 AI 软件工程： - 经典软件工程：人在写代码 - AI 软件工程：人在设计「AI 写代码的系统」这是身份的转变，不只是工具的转变。自动化越彻底，工业相关人口反而越多作者用一组跨越 150 年的数据指出：自动化越彻底，工业相关人口反而越多。1850 年代蒸汽机普及后，制造业整体爆炸式增长；1950 年代自动化后，工程师、设计师、工艺员数量暴增。每一次系统能力扩张，都会暴露出新的边界，而边界就是新的「偏差地带」，需要新一波人守在那里。结论：人不是被淘汰，而是迁移。边界在扩大，需要守的人反而更多了。但能在这种边界上工作的人会越来越少，因为形式化吃掉的都是低阶认知，剩下的都是越来越高阶的部分。与今日其他精讲的关系这篇文章与精讲一、精讲二形成了很好的理论基础互补。Claude Code 动态工作流和 GitHub Copilot 桌面应用，都是「设计能自我纠偏的 AI 系统」这个新工程原则在工具层的具体体现——worktree 隔离、子智能体协作、Canvas 双向介入，都在解决「如何设计系统来处理 AI 自身的不确定性」这个核心问题。对工程师意味着什么作者给出了一个相对乐观但也相当严峻的判断：AI 时代，人的统一职能是「处理系统暂时还无法处理的偏差」。这条铁律在所有工程门类里都成立——机械故障靠人拉回、电网负载偏差靠人仲裁，现在是认知偏差靠人纠正。不同的是，AI 工程里，偏差类型不再可枚举，偏差信号不再可观测，拉回手段也没有 SOP 可循。这意味着守边界的人，需要更强的判断力，而不只是更多的知识。作者在文章末尾讨论了组织形态和落地路线，以及他认为这场变革「最难的那道坎」在哪里，这部分值得有 AI 落地任务的工程师和技术管理者仔细阅读：查看原文 ## 速览 1. 任务保真度缩放定律：为什么数据质量决定 Agent 性能（AI Engineer） Snorkel 的实验证明：在相同算力和任务数量下，仅改变训练数据质量，高保真任务带来 6% 的性能提升，低质量任务只有 1%，差距高达 5 倍。高质量任务须满足四项标准：容器化（隔离干净的回滚和并行化）、可达性（目标非平凡但可实现）、功能正确性（逻辑可预期）、环境稳定性（执行基础设施稳定）。满足这四项才能产生干净的失败信号，让模型在 RL 训练中有效爬坡。低质量任务的常见缺陷是「退化失败态」：环境本身就不稳定，模型无法从失败中提取有意义的学习信号，额外的计算预算全部浪费在噪声上。对正在做 Agent 微调数据集的工程师，这组数据有直接的策略指导价值。查看原文 2. 打造 AI 原生工程组织 | Claude（Claude Blog） Claude Code 团队分享了他们如何重新设计工程流程以适应 AI 原生工作方式。代码生成、测试编写和重构已经不再是瓶颈，真正的瓶颈变成了验证、代码审查和安全评估。他们重写了规划方式（从长期路线图改为即时制订）、代码审查流程、上下文收集方式，以及团队的构成逻辑。这不是工具使用指南，而是一个已经完全转型的工程组织对「如何重新设计流程」的第一手记录，适合正在思考 AI 原生团队转型的工程 Leader 阅读。查看原文 3. MiniMax M3：首个融合三大前沿能力的开源权重模型（MiniMax 官方） MiniMax 正式发布 M3，声称是首个同时融合三大前沿能力的开源权重模型：编码与智能体性能（SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%）、由 MiniMax 稀疏注意力（MSA）实现的 100 万 token 上下文窗口、从零构建的原生多模态能力。同期推出 MiniMax Code 产品和新的 token 计划。权重和技术报告将在约 10 天内发布。值得注意的是，M3 是国内团队在开源大模型赛道上迄今为止对标 GPT 4o 级编码能力的最完整尝试之一，对关注开源模型生态的开发者值得持续跟进。查看原文 4. NVIDIA 推出 Cosmos 3：用于物理 AI 的完全开放全能模型（NVIDIA AI） NVIDIA 发布 Cosmos 3，定位为世界上首个完全开放的、用于物理 AI 的「全能模型」（omnimodel），原生支持视觉推理、世界生成和动作生成三种能力。本次发布了两个版本：Super（32B）和 Nano（8B），面向机器人和自主系统领域。结合精讲三和速览第五条的机器人供应链分析，物理 AI 的基础模型层正在加速成熟。查看原文 5. 拆解机器人「肉身」、量产与供应链：空翻之后，它还要学会接住一片落叶（硅谷 101）硅谷 101 深度拆解人形机器人的硬件架构：骨架材料（从钢材到铝合金、镁合金、钛合金的演进与轻量化权衡）、关节执行器（从液压到电机转变的背后技术进步）、传感器体系、电气与计算系统，以及整条供应链的成本结构与量产门槛。文章还引用了智元、宇树等头部企业一线负责人的具体判断。宇树科技科创板 IPO 刚刚通过上交所审议，这篇系统性拆解正当其时，适合想深入了解机器人硬件护城河的读者。查看原文 6. 深度解析 Agent 存算分离架构设计（idoubi）作者以 FastClaw 为例，系统拆解云端 Agent 的存算分离架构：三种运行模式（本地裸机、本地带沙盒、云端多副本）的优缺点对比，存储层的四种方案（热状态用 Redis、对话记录用 Postgres、长期记忆用 pgvector/Milvus、工作产物用 S3/OSS），以及基于存算分离架构的完整运行流程，同时指出了分布式数据一致性的挑战。对比今日精讲一中 Claude Code 动态工作流的 worktree 隔离机制，两篇在「计算与状态分离」这个方向上有一定共鸣，对正在设计云端 Agent 基础设施的工程师有直接参考价值。查看原文 7. 用数据说话：贴吧 AI CR（小码哥）落地 10 周，bug 密度下降 66.87%（百度 Geek 说）贴吧 Server 团队的 AI Code Review 落地实践：通过规则定制、自动化评测和三层反馈闭环（高/中/低优先级评论处理流程），将 AI CR 评审占比从 33% 提升至 84%，bug 密度从 0.332 降至 0.11，降幅 66.87%。文章完整记录了 10 周的推进节奏、踩坑经验和方法论，代码库多、提交频率高、人工评审质量参差的团队可直接参考迁移。这份实践与精讲三的理论框架形成印证——AI CR 本身就是一个能自我纠偏的代码质量系统。查看原文 ## 今日阅读路径时间有限，建议先读这三篇： 1. 为每项任务量身打造：Claude Code 中的动态工作流（精讲一）— 如果你在用 Claude Code，这是今天最直接有用的一篇，10 分钟读完，了解动态工作流的工作原理和触发方式，以及哪类任务最值得启用。 1. AI 软件工程范式革命的思考（精讲三）— 今天内容最有长期价值的一篇。控制论框架下的软件工程史重构，以及「设计能自我纠偏的 AI 系统」这个新工程师身份定位，是理解当前所有 AI 工具演进方向的底层框架。 1. GitHub Copilot 应用：以智能体为核心的桌面体验（精讲二）— 并行 Agent 开发控制中心的完整介绍，了解 GitHub 在 Agent 原生方向的系统性布局，以及 worktree 隔离、Canvas 协作、Agent Merge 这几个核心机制的实际用法。还有时间？推荐任务保真度缩放定律（做 Agent 微调数据集的工程师必读，5 倍质量差距有直接策略价值）和机器人供应链深度拆解（宇树 IPO 时机下的硬件架构系统梳理，适合关注具身智能落地的读者）。

译Anthropic 为 Claude Code 推出动态工作流，允许模型为每个任务自主生成 JavaScript 编排脚本，动态选择模型并启动多个子智能体在独立环境中并行执行，以解决单一上下文窗口处理复杂任务的限制。同时，GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用，提供统一视图、协作面板和自动化流程，旨在管理并行 Agent 开发。文章披露，GitHub 平台每月提交量已突破 14 亿次。

Orange AI@oran_ge · 6月3日12

当 CEO 发现 Token 很贵

Orange AI@oran_ge · 6月3日48

Opus 4.7、4.8 的接连失败令人费解价格更贵，效果无提升，甚至负提升看看日历，突然意识到 Claude 已经停滞了 4 个月即便是掌握了模型训练的方法，即便内部已经有了 Mythos 这样的开发利器模型的进步还是没有太多加速，依然半年一次大更新？

译推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳，价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月，即使内部拥有 Mythos 等开发工具，模型进步速度依然未显著加快，仍维持约半年一次重大更新的节奏。

Ethan Mollick@emollick · 6月3日40

The everything apps still look a lot like hybrids between chatbots and IDEs, rather than something built for general knowledge work. Too much assuming linearity & that final outputs are the only goal, too little connection to research, not enough chances to steer or select, etc.

译那些"全能应用"看起来仍然很像聊天机器人与 IDE 的混合体，而非为通用知识工作而构建的东西。太多假设线性流程且最终产出是唯一目标，太少与研究的连接，不够多的引导或选择机会，等等。

Chubby♨️@kimmonismus · 6月3日18

„Everyone hates AI slop“ „We are going to decide: is it vibe, is it slop?“ This sounds like a fun event :D

译“大家都讨厌 AI 垃圾内容” “我们将决定：这是氛围感，还是垃圾？” 这听起来是个有趣的活动 :D

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2061873460926943233 # Codex进化：写代码只是第一块拼图，下一块是什么？很多公司已经遇到一个尴尬场景。 AI 帮员工写完一段代码很容易。可一旦任务变成整理 Slack 里的上下文、翻 Google Docs、拉 CRM、做一份高管材料、把数据变成仪表盘，事情马上变复杂。 OpenAI 这次给 Codex 的更新，重点就在这里：把一个开发工具，继续往通用工作系统推。 OpenAI 披露，Codex 每周用户已经超过 500 万。非开发者，包括分析师、市场、运营、设计师、研究员、投资人和银行从业者，已经约占整体用户 20%，增长速度是开发者的 3 倍多。这个数字有意思。 Codex 正在从“会写代码的助手”，变成“懂岗位交付的工作台”。 ## 六个角色插件，把 Codex 推进真实工位这次最硬的变化，是角色插件。 OpenAI 一口气推出了 6 个面向角色的插件：数据分析、创意生产、销售、产品设计、公开股票投资、投行业务。每个插件不只是多接几个应用。更关键的是，它把相关应用、技能、指令和工作流打包在一起。 OpenAI 给出的数字是：这些插件合计覆盖 62 个热门应用和 110 个技能。这背后的产品思路很清楚。分析师需要追问指标为什么变了，销售需要把客户信号变成跟进动作，投行团队需要把研究和尽调变成客户能看的材料。岗位不同，默认上下文不同，交付标准也不同。如果 Codex 想进入这些岗位，就不能只等用户一句一句教它“怎么做”。它要提前知道这个角色的常见材料、常见工具和常见判断方式。下面是原文展示的插件生态图标墙（部分）这堆图标看起来像一张合作名单，但它真正透露的是另一件事：OpenAI 不想让 Codex 只待在自己的产品边界里。它要进企业已有的工具链。 ## Sites 出现后，AI 回答开始变成工作空间第二个关键能力叫 Sites。这是面向 Business 和 Enterprise 客户的预览功能。 Codex 可以把想法、分析和计划做成可分享的交互式网站或小应用，同一个 workspace 里的成员可以通过 URL 访问。这件事比“生成一个网页”更重要。很多知识工作的问题，从来不缺一段文字总结。缺的是一个可以反复查看、协作更新、聚合判断的地方。比如客户复盘、财务场景规划、产品发布中心、项目看板、创意简报库。这些东西如果散在文档、表格、聊天记录里，团队就会反复追问同一个问题：最新版本在哪里？谁负责下一步？哪个假设已经改了？ Sites 想把这类一次性输出，变成持续协作的页面。图中是原文展示的收益预测规划器示例。它说明 Sites 的定位已经越过静态文章，更像能承载数据、状态和决策的轻量工作界面。 OpenAI 还提到，Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期伙伴会参与 Sites 生态建设。这很关键。一旦 AI 生成的页面可以被分享、更新、协作，它就开始碰到传统 SaaS 的地盘。 ## 批注让 AI 修改时更像同事第三个变化是 annotations，批注。开发者已经在 Codex 里用批注改代码、Markdown 和网站。现在这个能力扩展到了文档、表格、幻灯片等内容。用户可以选中网站里的导航栏，让 Codex 改字体；高亮投资论点里的某个判断，让 Codex 查来源；圈出幻灯片上的图表，让它改成更清楚的标签。这个能力的价值，在于它把“重新生成一遍”变成了“局部修改”。 AI 做第一稿不难，难的是第二轮、第三轮。人类反馈往往不是抽象的。 “这一句太硬”“这张图看不清”“这个指标口径哪里来的”“这个按钮不像我们品牌”。批注把反馈固定到具体位置，AI 才更容易只改该改的地方。从工作流角度看，这比一次性生成更接近真实协作。 ## 真正的变化，是 Codex 开始理解岗位交付 OpenAI 还给了几个内部和客户案例。 OpenAI 内部的非技术团队用 Codex 做内部应用、高管材料、仪表盘，也把创意简报变成符合品牌和设计约束的工作。 Zapier 团队用 Codex 从 Slack、Google Docs、Coda 等工具里提取知识，再整理成事故复盘、响应计划和功能票据。 NVIDIA 研究员用 Codex 加速实验流程，从找研究想法到写机器学习基础设施脚本。这些案例都有同一个特点：Codex 处理的是一串带上下文的工作，孤立任务只是其中一小段。这也是角色插件、Sites、批注三件事放在一起的原因。插件负责接入岗位上下文，Sites 负责把输出变成协作空间，批注负责把反馈循环接起来。如果说早期 Codex 的问题是“能不能帮开发者写代码”，这次更新的问题变成了“能不能帮一个团队完成工作”。可用性方面，角色插件会在支持地区逐步向 Codex 用户开放。管理员可以在 workspace 设置里控制底层应用权限。 Sites 目前面向 Business 和 Enterprise 团队在 Codex app 中预览，Enterprise 管理员可以在后台启用。 OpenAI 还提到，后续会推出更多角色插件，包括企业财务、私募投资、营销策略、战略咨询和法律。这不是一个小功能更新。它更像是 OpenAI 在说：AI 工具的下一站，会从更聪明的聊天窗口，走向更懂组织分工的工作系统。代码只是第一块拼图。下一块，是那些没人想手动整理、但每家公司都离不开的工作。原文：Codex for every role, tool, and workflow

译OpenAI披露，Codex每周用户已超500万，其中非开发者用户约占20%，增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统，主要推出三项能力：1) 面向数据分析、销售等角色的角色插件，覆盖62个应用和110个技能；2) 面向企业客户的Sites功能，可将计划生成为可协作的交互式网站；3) 扩展到文档、表格等的批注功能，支持局部修改。这些更新旨在让Codex更好地理解岗位上下文，进入企业现有工具链。

向阳乔木@vista8 · 6月3日69

http://x.com/i/article/2061869220716019712 # 字节出来做AI创业一年，她把每一个弯路都说清楚了 > https://www.xiaoyuzhoufm.com/episode/6a100e7da7621e15d0c88337 梦琪创业快一年了，融了钱，pivot（转型）了好几次，最惨的时候觉得"做软件真是脑子进水"。但她现在反而不焦虑了。这篇文章是她在曲凯的「42章经」播客里的完整复盘。字节背景、华丽团队、Agent 故事、连续融资……她走过了过去几年 AI 软件创业者最典型的那条路，然后把每一个弯路都说清楚了。 ## 去年融到钱的软件创始人，都该给 Manus 磕一个梦琪总结了一个过去两三年 AI 软件创业的标准剧本：字节背景，组一个好团队，讲一个当下流行的 AI 故事（那时候肯定是 Agent），产品出来之前先融几轮，然后开始转型。或者出一个小产品，不温不火，等新概念出来再做新产品。她说，很多人看到这段会对号入座。今天的软件行业处于低点，但这个低和 2023 年的低不一样。 2023 年是整个行业都低，2025 年是巨身（大模型）非常热、AI 硬件也起来了，软件单独在受冷。这个背景下，她说去年五月以后融到大钱的软件创始人，都应该感谢 Manus。因为 Manus 让 Agent 这件事在国内有人愿意看、愿意投。但她也直接说了：很多 To B 的 Agent 公司，商业模式上和十年前的 SaaS 本质没有区别，只是产品不一样，然后拿到更高的估值。 ## 二三月份，她觉得自己要死了 AI Coding 变强这件事，梦琪用"指数级"来形容，而且说这种推背感"特别特别强烈"。她聊到一个细节：OpenAI 内部做后训练的同事告诉她，今年 2 月，他们 80% 的代码已经是 agent 写的。但这位同事并没有因此变得更轻松，因为要做的事变得更多了。这个细节说明了什么？模型变强，并不等于软件创业变容易了。但另一个方向的逻辑也成立：如果 AI Coding 这么强，为什么过去三年真正跑出来的产品还是非常少？梦琪的答案是：大部分产品没有体验可言。她用了一个很直接的词——"诈骗公司特别多"。产品宣称能交付的价值，和用户实际用下来的体验，严重不匹配。她在今年二三月份最焦虑的时候，发现自己回答不了一个问题：你的产品跟直接用 Claude 有什么区别？Claude 生态里随便一个人做个插件，就能干掉你，你怎么办？没有一个站得住脚的答案。 ## 三次错误决策，一步步走向 SaaS 梦琪的公司叫 Invocal，她把自己这一年的转型过程拆得很细。第一个错误：做垂直 Agent 成立之前，她就决定不做 General Agent，因为"那会已经有第 18 个 Manus 出现了"，不想加入混战。选了垂直方向，选了达人营销里的 Sourcing（采购）场景（帮品牌找达人）。逻辑听起来很顺：找明白达人，就能找明白候选人，找明白客户，Sourcing 是个能泛化的场景。但做了两个月之后，她发现了一个分叉：两类用户给完全不同的需求。创始人说"什么都不想按，给我结果"；专业用户说"中间每一步我要审计，要确认"。她选择了服务专业用户，然后把专家经验蒸馏进产品，再卖给非专业用户。结果某一天她对比了一下，发现这个产品"长得就是 SaaS"，和八年前那批 SaaS 公司的产品长相一模一样。她的结论是：如果你服务专业用户，他们会一直给你提需求，直到你长得跟 Adobe 差不多才会停下来。这条路必然走向 SaaS，没有别的出路。第二个错误：选了错误的场景 Sourcing 这个场景本身就不成立。达人营销的完整链条里，Sourcing 只占 30%，而且对 AI 来说是相对容易的部分。后面的沟通、谈价、排期，才是最耗时间、最耗人力的地方，而她的产品跳过了这些。第三个错误：横向扩张而不是纵向深挖意识到 Sourcing 不是高价值点之后，她面临一个选择：往深做增长全链路，还是横向扩张去做"找候选人、找客户"的通用 Sourcing Agent？她选了前者，这个决策她觉得是对的。理由是：掌握了面粉和鸡蛋，不代表你应该同时卖大饼和意大利面。找人 Agent 的跨场景复购逻辑根本不成立，没有人会同时有找达人、找候选人、找客户的需求。 ## 垂直 Agent 的两个结构性困局做到 12 月份，梦琪得出了一个"非常难以承认"的结论：垂直 Agent 大概率不成立。她总结了两个结构性困局。第一个：客户不用产品，但你又想挣钱，所以你被迫变成 Agency （代理公司）垂直 Agent 公司在过渡阶段，几乎都要派人去服务客户。产品是给投资人看的，真正挣钱靠服务。她听到无数次同行说：内部服务的人也不用这个产品，那这个产品做来干什么？她用了一个词："景观效应"。产品就是一个景，给投资人看这个景。第二个：To B 本身的结构性问题 To B 周期长，在中国做 To B 是贬义词，在美国做 To B 的华人天花板也很明显。更关键的是：To B 的 Agent 公司能吃到的最大的新模型红利，只是内部开发效能更高了。对于产品能解决的问题，效率有没有十倍、二十倍的增长？没有。 ## 去美国待了两个多月，对美国创业生态祛魅了梦琪在最焦虑的时候跑去硅谷待了两个多月，想搞清楚是自己能力不行，还是垂直 Agent 这件事本身就不成立。结论是：大家的困境都挺像，都是结构性的困境。但她还顺带观察了一件事：美国 To B 圈的"骚操作"比她想象中严重得多。最基础的版本是互相买产品刷流水，你给我 50K，我给你 50K。但这个太容易被审计出来了，所以现在已经进化成六个人、十个人的复杂交易网络，审计不出来。她说每到月底，那些美国创业者对她格外热情，后来才明白是想拉她一起冲流水。她没参与，觉得"没必要，要维持自己的道德标准"。 ## 做了一个浏览器插件，反而看到了曙光转向 C 端之后，梦琪的团队做了一个叫 CLICK 的浏览器插件，解决一个问题：你开了一堆 Tab，一直切换，找不到信息。同时支持光标旁边唤起 AI 写作。她说这个产品"能说出 100 个替代品的名字"，功能极其简单。但就是这么一个产品，收到了来自南非用户的反馈：用了这个产品之后，终于能沉浸式干一件事了，不需要在屏幕上划来划去，让焦虑一点点叠加。这给了她一个关于 C 端产品的核心判断：只要能缩短用户意图和解决方案之间的距离，你就有价值。 CLICK 的价值不是功能有多复杂，而是把"想用 AI 写这段话"这个意图，从"截图→打开 ChatGPT→写 prompt→复制回来"压缩成了"按一个按钮"。后来他们把 CLICK 扩展成了客户端产品，做了三个月，截止到录制前一天晚上，已经是第 49 个版本了，还有 bug，但稳定性在同类产品里算高的。梦琪说，越做越对软件有敬畏之心。软件是由 15,000 个细节组成的，你多吃一个细节，用户体验好一点。 AI Coding 越强，这种感受反而越深。 ## 两种 C 端生意，她选了健身房她把 C 端的 AI 产品生意分成两类。第一类是大 R 运营：找一批高消耗用户，一个月给你出几万美金的那种，用户量不多，但客单极高。 Lovable 这类产品的用户量没有想象中多，但一两万个超级用户就够吃了。第二类是健身房模式：收订阅费，赌用户不会天天来用，或者赌他们的 token 用不满。这种模式在高竞争环境下很难有超额收益。梦琪选了健身房模式，因为她不想做一个毛利极低的业务。 ## 用 Reddit 做用研，比你想象的有用梦琪分享了一个她觉得很有效的用研方法：大量泡 Reddit。一方面是数据挖掘，但这只能给静态结论。更重要的是，他们在 Reddit 上发了大量帖子，把每个产品决策拆成决策漏斗，每一层对应 40 到 50 个帖子发出去，回收所有反馈。她说泡 Reddit 最大的好处是：你会发现很多问题 AI 这么牛了还没解决，比如 context switching（上下文切换）的问题，每天都有人在吐槽"我在几个 context 里一直切换，我脑子要分裂了"。泡 Reddit，你就不焦虑了。因为你看到的是真实的、没被解决的需求，而不是投资人 PPT 里的市场分析。 ## 刚拿到融资，是创始人最接近"愚昧之巅"的时刻梦琪对自己的批评很直接。她说创业初期招了一些很厉害的科学家，现在有些在美国的 Research lab（研究机构）里。但那些决策不是基于真正的市场需求，而是"我得装一下，我得满足自己的虚荣心，我得展示我有能力把他们都招来"。她的结论是：大部分纯应用的创业公司不需要任何算法工程师。你用不上，快放人家去训模型吧。招这个人，纯属给投资人看，显得阵容豪华。她还说：刚拿到融资的时候，往往是创始人最接近"愚昧之巅"的时刻。觉得自己讲得太好了，怎么这么能造概念，怎么这么能总结，怎么这么能融会贯通。等真正做事之后才发现，落地是如此恶心，细节是如此之多。 ## "XX 已死，XX 永生"是 AI 圈的番茄小说梦琪对这类言论的评价很直接：脑子有病，没有意义。她的逻辑是：商业社会里所有的竞争，都不是一瞬间完成的。抖音出来，快手不会今天立刻死。某个 AI 产品出来，做 workflow 的公司不会立刻死。这个世界是在动态博弈、动态竞争里运转的。自媒体特别喜欢把一个漫长的、可能有点枯燥的竞争过程，压缩成几秒钟发生的短剧剧情。她还有一个观察：AI 的渗透率其实远没有行业内的人想象的高。她在旧金山做过田野调查，在 101 公路上打了大广告牌的 Wispr Flow，只有 40% 的人知道，知道的人里真正付费在用的可能只有 20%。还有创业者在路边随机问人"你用不用 ChatGPT"，结果很多人根本不知道。这个世界很参差，很分层。有的人到现在还把 AI 当简单助手用。需求是多分层的，渗透率还足够低，这是她乐观的理由。 ## 上一个产品是证明题，这个是简答题梦琪说，她一直没有做过"全球首款 xxx"的大宣发。表面原因是觉得浪费钱，一波流留存不好。但夜深人静的时候，她问自己真实的原因：因为对那个产品不满意，不相信它。她现在的状态是：这个产品再垃圾，你怎么骂我，我就爱这个产品。这是她的 spark（动力源泉）。她把上一个产品定性为"机会主义者，迎合市场，想交作业，想做证明题"。而现在这个产品，她想做一道真的想答的简答题。她说有一些事是 AI 代替不了的：人内心深处的那种火，那种光，那种 spark。这是人身上最宝贵的部分，也是她认为一定要保护好的东西。 ## 创业者的牵引力来自哪里梦琪最后做了一个总结。她说创业者有非常多的牵引力：投资人给的、市场给的、员工给的、用户给的。她反思自己过去，外界的牵引力太多，用户的牵引力太少。用户的牵引力，才是决定你能不能做出好产品的核心因素。她还说了一句话，可以当作整个复盘的注脚：创业不能用太多左脑。天天盘概念、推逻辑，被所谓的叙事骗了，然后总是推倒重来，而不是用心去感受你真正想做什么。第一性原理是：解决问题的最短路径。其他的都是周边。如果你现在也在做软件，或者在考虑要不要做，梦琪的这一年给出了一个可以直接对照的清单：你的产品是在解决真实需求，还是在讲一个好听的故事？你服务的是专业用户还是普通用户，这两条路通向的终点完全不同。你的牵引力主要来自用户，还是来自投资人和市场热点？你对这个产品有没有那种"不做会后悔死"的感觉，还是只是觉得这个机会比较合适？这四个问题，梦琪都踩过坑了。

译字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本：组团队、讲AI智能体故事、连续融资，随后经历三次错误决策：选择垂直智能体场景（达人营销的Sourcing资源挖掘）、选错场景（该环节仅占链条30%）、并误判横向扩张。她得出结论：垂直智能体存在结构性困局，易被迫变成代理公司，且To B模式难以获得模型效率的倍增红利。转向C端后，团队开发了浏览器插件CLICK，其核心价值在于缩短用户意图与解决方案的距离。她总结认为，大部分应用层创业公司不需要算法工程师，创始人刚融资时最易陷入“愚昧之巅”。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月3日63

A few thoughts on NVIDIA RTX Spark, setting aside the specs for now: the on-device AI agent narrative, a reality check on delivery, and Apple’s WWDC. 1. At the heart of it are two things: Jensen Huang’s “reinvent the PC” slogan and a concept demo of an on-device AI agent workflow. (I call it a concept demo because there was no live demo.) The slogan and concept demo should help speed up market consensus around on-device AI agents in the near term. 2. The key elements of the on-device AI agent concept: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox The concept isn't new, but thanks to GTC's reach, it will likely shape how people talk about on-device AI agent use cases for the foreseeable future. 3. Jensen laid out the vision and narrative for on-device AI agents earlier than most. But over the next two years, RTX Spark devices will still be a niche slice of the laptop market, so it's too early to call who wins commercially. 4. Before GTC, most discussion and predictions around RTX Spark / N1X focused on its codename, specs, and supply chain. The operating system rarely came up. In his keynote, Jensen placed the OS alongside the chip platform at the heart of “reinventing the PC.” That echoes my earlier point: the operating system is the key to on-device AI driving the next upgrade cycle. 5. Software is what makes or breaks the user experience. For users to actually experience the agentic workflow Jensen showed, a lot still has to happen. At a minimum, NVIDIA’s CUDA Toolkit needs to officially support Windows Arm64, while Microsoft needs to move Windows’ on-device AI agent stack from preview to general availability (GA), including MCP on Windows, ODR, and agent connectors (all still in public preview), plus Agent Workspace (still in private preview). If these developer and OS tools still aren't in place when the hardware ships, RTX Spark devices will struggle to deliver on the keynote’s core promise: enabling users to actually create and experience AI agent workflows, the product’s core selling point. 6. After Huang's "reinvent the PC" pitch, how Apple responds to on-device AI agent workflows at WWDC (expected June 8) becomes another thing to watch, alongside how much Siri improves. For NVIDIA and Microsoft, even if RTX Spark's development or shipping timeline slips, it won't dent their strong growth in AI infrastructure. Apple is in a different position: consumer electronics is its entire hardware business, and on-device AI is where consumer electronics innovation is heading. So beyond a compelling narrative, Apple also needs to show a concrete plan to deliver, including clearer developer tools and an agent-ready OS update timeline.

译郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出，该概念演示（无实际现场展示）包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示，配备相关N1X芯片的设备未来两年出货量约1000万台，仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时，NVIDIA CUDA Toolkit未正式支持Windows Arm64，且Microsoft的设备端AI智能体栈（包括MCP on Windows、ODR等）仍处于预览状态，则RTX Spark将难以兑现其核心卖点。此外，Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。

Berryxia.AI@berryxia · 6月3日63

OpenAI刚刚官方发出的最新数据，这一波直接把Claude按在地上摩擦了！ Codex现在每周活跃用户已经超过500万，比二月份桌面App刚上线时增长了6倍多。更值得注意的不是这个数字，是这些人到底在用它干什么。一开始大家以为Codex只是程序员的代码助手，结果现在知识工作者采用它的速度是开发者的3倍以上，占了用户总数的20%。他们不再只写代码，而是用它做研究、数据分析、内容创作、合同起草、运营协调，甚至一次同时跑多个任务。 72%的知识工作者每周都会用它产出文档、备忘录、图像、音频或者视频。最快的增长领域是数据分析（周环比110%）、研究（37%）和知识产物制作（36%）。一个加州州立大学的数学教授用它处理Canvas LMS的行政工作，每周省下4到5小时，把时间重新投到和学生的深度讨论上。另一家叫GroundVue的公司，用Codex把9万个政府机构的公开会议全部抓取成可搜索的知识库，以前需要一大队研究员，现在3个人就搞定。以前我们总觉得AI会先把程序员的工作吃掉，结果真实数据把这个预期彻底反转了。知识工作者才是最早把AI当成日常生产力操作系统的那批人。这其实就是Brynjolfsson说的“工厂重构时刻”：当年电力出现后，大家先把蒸汽机换成电动机，结果效率没怎么提升。后来他们把整个工厂布局重新设计，把电机装到每台机器旁边，才真正爆发生产力。 Codex正在对知识工作做同样的事。它把搜索信息、跨团队协调、审批流程这些过去占掉知识工作者将近一半时间的隐形成本，直接压到最低。

译OpenAI最新数据显示，其AI编程工具Codex周活跃用户已超500万，较二月份增长超6倍。关键趋势是用户群体变化：知识工作者采用速度是开发者的3倍以上，占总用户数的20%。他们不再局限于编程，而是广泛用于研究、数据分析、内容创作和运营协调，其中72%每周用其产出文档、图像等内容。增长最快的领域是数据分析（周环比110%）、研究（37%）和知识产物制作（36%）。案例包括教授节省行政时间、公司高效构建知识库。这反映了AI正像“工厂重构时刻”一样，重构知识工作流程，大幅压缩其隐性成本。

Chubby♨️@kimmonismus · 6月3日30

It is interesting how much focus is being placed on data centers and the community. Recently, there were numerous reports regarding resistance to data center expansion; now comes the promise from Microsoft: no increase in electricity costs due to data centers, along with resource conservation.

译有趣的是，数据中心和社区受到了如此多的关注。最近有大量关于数据中心扩张阻力的报道；现在微软承诺：数据中心不会导致电费上涨，同时节约资源。

AYi@AYi_AInotes · 6月3日73

Damn，一个独立开发者用 23.5 小时 + Codex，把 Whoop 5.0 的订阅墙拆了。没有破解，没有越狱，就是一个开源 App，连上你的 Whoop，心率、血氧、恢复数据直接看， zero 订阅费。这大概是订阅制硬件今年最不想看到的故事。这个 App 叫 Goose， GitHub 上完全开源。作者Bennett晒了时间线，从 0 到能连上 Whoop 5.0 并读出 HR、SpO2、皮肤温度、恢复分数，总共 23.5 小时，而且大比例代码是 Codex 写的。能做到这件事，不是因为 Whoop 太弱，是因为它的 BLE 广播协议本身没封死。 Judes Club 之前就有过完整的 Whoop BLE 分析， Goose 本质上是在这个公开协议底子上，用 Rust 搭了座桥，SwiftUI 做了层皮，把原本必须走 Whoop 服务器的数据，直接留在了本地。很多人以为 Whoop 的护城河是硬件精度，其实不是。 Whoop 真正的护城河，是你一旦戴了半年，历史数据、恢复曲线、睡眠趋势全锁在服务器里，你根本懒得走。 Goose 撕开的不是技术缺口，是订阅制硬件最脆弱的那层窗户纸：用户惯性。这就好比住高级酒店和买房的区别。 Whoop 让你交年费，给你一张房卡，房间里确实打扫得挺干净，但你的所有行李、照片、生活习惯，退房那天全得留在房间里。 Goose 不是另盖了一家酒店，是告诉你：这房子本来就有扇后门，你自己拿钥匙进去，东西全带走，不用看前台脸色。过去两年 AI 写代码的故事，大家都在比谁写得更快。但 Bennett 这件事真正的信号是， AI 把一人挑战封闭硬件生态的成本，压到了一天之内。以前逆向硬件需要团队、需要数月、需要固件提取，现在一个开发者 + Codex， 23.5 小时就能让订阅墙看起来像个笑话。当然，我非律师，这只是我作为开发者的技术观察。硬件公司的护城河不会明天消失，但定义已经在变。过去的护城河是传感器精度和 App 封闭，未来的护城河，可能是你愿不愿意把数据主权交出去。当一个人的周末就能拆一扇墙，订阅制硬件的终局可能不是被另一家硬件公司打败，是被一群不想交月租的开发者，一人一天，逐个拆光。所以说，Whoop 真正的对手不是 Apple Watch，是每一个周末有空、手边有 Codex、还觉得 30 美金月费有点贵的开发者。 GitHub 仓库我放一楼了，有用自取。

译独立开发者Bennett利用Codex AI编程工具，在23.5小时内开发出开源App Goose。该应用可直接通过蓝牙读取Whoop 5.0的健康数据，无需订阅。实现基于公开的BLE协议分析，使用Rust和SwiftUI将数据本地化存储。此举暴露了依赖用户数据锁定和惯性构成的订阅制硬件护城河的脆弱性，并展示了AI工具如何降低个人挑战封闭生态的成本。