A key lesson of the last year of building open models, once it became so obvious the US is behind, is that talk is cheap. Many people say they're helping / want to help but actually don't do anything. Finding the few people who genuinely push open forward is crucial.

译过去一年构建开放模型的一个关键教训，当美国明显落后这一点已变得如此清晰时，就是空谈是廉价的。许多人说他们在帮助/想要帮助，但实际上什么都没做。找到那些真正推动开放进步的人是至关重要的。

AYi@AYi_AInotes · 6月3日46

发现老黄简直就是个行走的拉盘神器， COMPUTEX 2026 台北国际电脑展， Nvidia 市值5万多亿的黄仁勋，逛展会逛累了，直接跑到技嘉展台，席地一坐，跟技嘉老总李宜泰喝起来了。旁边围了一圈人，他完全不在意，地上坐了近 10 分钟。技嘉股价当场就被拉了一下，估计很多人都纳闷，：老黄和技嘉到底铁到什么程度？这么捧场？上上届 COMPUTEX 他公开喊过 "GIGABYTE NO.1"，这次直接坐人地盘上喝啤酒——是真把合作伙伴当兄弟。而且有个规律很硬，COMPUTEX 期间老黄一出现，相关供应链股票经常大涨，技嘉最近参会已经五连涨超 20%，这个视频一出，盘中又被带了一波。所以怎么看这个信号？第一层是股价信号，他在哪里坐下，市场的钱就跟到哪里，第二层更深，他没去敲钟的展台，而是去长期合作伙伴的地盘坐下来聊天，这说明 Nvidia 的供应链逻辑里，技嘉的位置在加深，而不只是贴个牌。对看供应链的人来说，老黄的行程表比研报值钱。

译黄仁勋在COMPUTEX 2026上逛至技嘉展台，席地而坐与技嘉老总喝啤酒近10分钟，引来围观。技嘉股价当场被拉，期间已五连涨超20%。深层信号显示Nvidia供应链逻辑中技嘉地位加深。引用推文回顾：2009年Nvidia市值仅40亿美元（Intel 1000亿），黄仁勋押注CUDA和异构计算，17年后Nvidia市值5万亿，Intel约五千亿，25倍劣势变为近10倍反超，体现其远见与护城河。

Emad@EMostaque · 6月3日42

Yo @xai team, this would be an amazing demo of @grok capability. Push button, have it read all your bookmarks, organise them, make a report on the most interesting one and your interests over time etc

译嘿 @xai 团队，这将是一个展示 @grok 能力的绝佳演示。一键操作，让它读取你所有的书签，整理它们，就最有趣的书签以及你长期以来的兴趣生成报告等。

Rohan Paul@rohanpaul_ai · 6月3日59

OpenAI's usage pattern from CFO Sarah Friar's new interview. "Our free users do about seven turns, or seven questions, a day. Our first paid tier does double that, about 15. Our real paid tier, Plus, which is $20, is about 3x, and Pro is about 11x over a free user." Our mission at OpenAI is AGI for the benefit of humanity, not for the benefit of humanity who can pay, or for the benefit of humanity who live in an enterprise" ---- From @theallinpod YouTube channel, (link in comment)

译OpenAI 的使用模式来自 CFO Sarah Friar 的最新采访。 “我们的免费用户每天大约进行七轮对话，也就是七个问题。我们的第一个付费层级是这个数字的两倍，大约 15。我们的真正付费层级 Plus，价格为 20 美元，大约是免费用户的 3 倍，而 Pro 大约是免费用户的 11 倍。” OpenAI 的使命是为了全人类的利益实现 AGI，而不是为了那些能付费的人，也不是为了那些在企业工作的人的权益。 —— 来自 @theallinpod YouTube 频道，（链接在评论中）

meng shao@shao__meng · 6月3日77

当 AI 成为默认工作方式，工程团队如何改变？ Claude Code / Claude Cowork 工程负责人 Fiona Fung 在 Code w/ Claude SF 2026 给咱们分享了「如何管理一个 AI-native 工程团队」。她的主要判断是：在 Claude Code 团队里，写代码、写测试、重构已经很少成为主要限制，新的限制变成了验证、代码评审、安全和专业判断。 https://claude.com/blog/running-an-ai-native-engineering-org # 四个研发流程变化 1. 规划：从半年路线图转向及时规划 Fiona 说，Claude Code 团队曾经写过一份不错的六个月路线图，但因为变化太快，到第三个月就过时了。于是他们把规划从重文档、重长期计划，转向原型、内部用户反馈和更短周期的判断。这不是说不规划，而是规划的颗粒度变了。越是 AI 加速明显的团队，越不适合把大量时间花在远期细节上。合理做法是保留方向判断，把执行细节放到更接近真实验证的时间点。 2. 上下文获取：从找人，变成先问系统传统工程团队遇到问题，常常先找“谁写了这段代码”。但如果大量 PR 都由 Claude 辅助完成，只知道开发作者已经不够。文章建议更深入地问：你到底想知道什么？是找回归原因、找某个决策背景，还是找能回答客户问题的人？这里的变化很关键：知识不再只绑定在人身上，而要尽量沉淀到代码、PR、日志、反馈和自动摘要里。团队管理的重点也从“问谁”变成“如何让上下文可被检索、可被解释、可被复用”。 3. 代码评审：AI 处理常规问题，人处理专业判断文章提到 Claude 会大量参与样式、lint、PR 反馈、bug 发现、修复和测试补充；但法律风险、安全边界、产品判断、设计品味这些仍然需要人。这说明代码评审的价值正在重新分层。低层次的一致性检查、常见 bug、测试补齐，应该更多自动化；高层次的架构判断、安全责任、业务取舍，仍然要由有经验的人负责。这也是很多团队容易误解的地方：AI 不是让人退出评审，而是让人从琐碎检查中移出来，把注意力放在更难、更有责任的问题上。 4. 团队结构：角色边界变模糊，但深度专业仍然重要文章提到 PM 开始写代码，工程师也会承担内容和设计相关工作。团队更看重两类人：有产品感觉的创造型建设者，以及有深厚系统能力的工程师。相对而言，单纯“写得多、写得快”的价值下降，因为模型已经能承担大量产出。这点很现实。AI 会扩大非传统工程角色的能力范围，但并不会消除专业深度。恰恰相反，当更多人都能生成代码，真正稀缺的是：判断要做什么、如何保证可靠、如何处理复杂系统约束。 # 组织管理上的真正变化第一，流程不能永久存在。很多流程当初是为了解决某个问题，但问题消失后，流程往往还在消耗团队时间。AI 加速后，团队要更频繁地审视哪些会议、文档、审批、评审已经不再有必要。第二，组织要把“默认使用 AI”变成共同原则，而不是个人偏好。Claude Code 团队要求成员持续使用自己的产品，包括跨职能伙伴也使用 Claude Code 和 Claude Cowork。这会让团队更快发现真实问题，也能形成一致的工作方式。第三，管理层需要贴近一线。文章提到希望 manager 先作为 IC 参与交付，理解团队真实工作方式。在 AI 改变开发流程时，只靠传统管理汇报，很容易低估变化速度，也容易保留过时流程。 # 可以跟踪的三个指标（建议工程负责人关注） 1. 新成员多久能有效工作。Claude Code 团队认为，现在新人可以在第一周就交付真实代码。 2. PR 周期是否变短。如果代码生成速度上来了，但 CI、构建、评审跟不上，瓶颈会转移到工程平台。 3. AI 辅助提交比例是否上升。但作者也提醒，不要把产出量本身误认为成功，真正要衡量的是团队原本想解决的问题。

译Claude Code 工程负责人 Fiona Fung 在 Code w/ Claude SF 2026 分享管理 AI-native 团队经验：写代码不再是瓶颈，验证、评审、安全与专业判断成为新限制。四个流程变化：规划从半年路线图转向短周期原型与反馈；上下文获取从“问谁写的”转为沉淀到代码/PR/日志；AI 处理常规代码评审，人负责法律/安全/业务判断；团队角色模糊但深度专业仍稀缺。组织上建议定期清理过时流程、默认使用 AI、管理者贴近一线。可跟踪新人首周交付真实代码、PR 周期变短、AI 辅助提交比例，但产出量不是成功本身。

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2062080260586283008 # xAI 视频多模态负责人访谈：视频模型的天花板，其实是语言模型一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人，离职时说的理由是：视频模型最大的瓶颈，其实是语言模型。 Laten Space最近访谈了Ethan He，内容很不错，让AI转写一篇文章。 > https://www.latent.space/p/video-agents ## 他是谁，做过什么 Ethan He 是一位多模态 AI 研究员，职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。在英伟达期间，他是 Cosmos 视频基础模型的核心作者之一。 Cosmos 是一个大规模视频生成模型，目标是模拟物理世界，作为机器人研究的基础底座，于 2024 年底发布。 2025 年中，他加入 xAI，主导 Grok Imagine 的视频和多模态方向，包括： - 音频视频联合生成（Grok Imagine 0.9） - 视频扩展（Video Extension，支持完整历史上下文的长视频生成） - 参考视频生成（Reference-to-Video，支持上传最多 7 张图片作为角色或场景条件） - 内部世界模型团队（专注实时长时程视频生成）访谈时他刚刚离开 xAI，准备转向语言模型方向的研究。 ## 三个月从零到视频模型，靠的不是算法加入 xAI 时，团队没有数据、没有基础设施、没有现成模型，只有几个工程师。三个月后 Grok Imagine 0.9 发布。他总结了两个关键因素。第一是人的密度，而非人的数量。团队里每个人都很强，目标高度一致，沟通成本极低。每天只有一个例会，其余时间全部用来构建。他的观察是：小团队减少沟通带宽，反而比大团队更容易快速迭代。第二是迭代速度，而非单次训练质量。他的核心判断是：训练模型最重要的指标，不是某次实验的结果有多好，而是每天能跑多少轮实验。迭代越快，发现 bug 的机会越多。而且他特别强调：模型质量最大的提升，往往不来自新算法，而来自数据管道和训练流程里那些不起眼的小 bug。这听起来有点怪，但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。他还提到一个时间节点：2025 年中加入时，代码模型还不够好，写出来的代码经常是几千行的"意大利面条"，连模型自己都搞不清楚怎么维护。到 2025 年 12 月，代码模型已经强到可以快速实现任何想法。这带来了一个新的瓶颈反转：以前是写代码慢，现在是算力跟不上想法的速度。代码几小时就能写完，但训练一个新模型可能要等好几周。 ## 视频模型是怎么炼出来的：完整路径第一步：先训图像模型，再训视频模型原因很实际，图像比视频便宜得多，而且语言和图像之间的对应关系更密集。举个具体数字：训练 10 亿张图文对，和训练 10 亿个视频文本对，成本完全不在一个量级。但前者能给模型打下更扎实的语言理解基础。视频模型对语言的理解，完全来自这种文本到视觉内容的映射关系。如果映射数量不够，模型就不能充分理解人类意图。所以标准做法是：先训图像扩散模型，再用它作为基础，迁移到视频模型。第二步：解决数据对齐问题互联网上的视频天然缺少精准的文字描述。 YouTube 上的标题和评论，和视频内容本身几乎没有关联。一段山川自然风光，标题可能是"今天真开心"，二者毫无关系。所以必须用 VLM（视觉语言模型，能同时理解图像和文字的 AI 模型）给视频打字幕，生成合成的文本视频对。但 VLM 本身在早期也需要人工标注来冷启动。 Cosmos 的标注要求非常具体：描述要详细到让一个盲人听完文字，就能在脑海中重建出这段视频。所有物体、角色、互动、对话，都要覆盖。这个标准直接决定了后来视频模型能不能真正理解人类意图。第三步：训练 VAE（变分自编码器，一种把图像压缩成低维表示再还原的压缩器）原始视频帧的像素量太大，1000×1000 的图像就有 100 万个像素，Transformer（一种主流的 AI 模型架构）根本无法直接处理。 VAE 把图像映射到一个低维的连续潜空间（latent space，可以理解为图像的"压缩编码"），再从潜空间还原回图像。具体做法是把图像切成小块（patch），每个小块映射成一个向量，这样一张图就变成了几十个向量，而不是 100 万个像素。时间维度的压缩比例是个关键决策。 Wan 2.1 采用 8×8×4 的压缩率，时间维度压缩 4 倍，上下文长度大幅缩短，训练效率更高。但代价是实时性：如果要做实时交互，时间维度的压缩会引入固定的延迟，无法做到即时响应。如果不压缩时间维度，只做帧内压缩（8×8×1），上下文长度会是 4 倍压缩方案的 4 倍，计算量大得多，但可以支持帧级别的实时输出。第四步：训练扩散 Transformer（Diffusion Transformer）流程和语言模型非常相似，区别只是输入输出换成了视觉 token（图像的压缩表示），以及加入了去噪过程：向视觉 token 加入随机噪声，训练模型把噪声去掉，推理时从纯噪声开始迭代生成干净的图像或视频。推理侧的主要优化手段是步骤蒸馏（Step Distillation）：用完整模型跑 100 步生成高质量结果，再训练一个只需要 10 步的小模型去模仿它。这背后的逻辑是：完整模型要学的是整个互联网的图像分布，极其复杂，蒸馏模型只需要学老师模型的分布，简单得多。 Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成（针对图生图等简单任务）。 ## 训练一个视频模型到底要花多少钱 Ethan He 做了一个粗略的估算，数字很有参考价值。模型规模：视频模型和中等规模语言模型相当。 LTX 是 19B（190 亿）参数的稠密模型，也有人在探索 MoE（混合专家模型，一种让模型只激活部分参数的架构），激活参数约 20B，总参数可能达到数百 B。 Cosmos 公开披露的视觉 token 数量也在数十万亿量级，和语言模型的训练规模接近。存储成本：假设有 10 亿个视频，每个视频 5MB，光存储就需要 5PB（5000TB）。加上 VAE 提取的特征文件，总存储量翻倍，达到约 10PB。在 AWS S3 标准存储上，5PB 的月存储费用约 23 万人民币，加上数据出口费用，每月总成本可能达到数百万人民币，还没算 GPU 训练成本。他特别提到：数据出口费用（把数据从云端传输出去的费用）比存储本身更贵。每次训练都需要把数据拉取一遍，如果多次训练，费用成倍叠加。这也是为什么大规模训练团队通常会自建存储基础设施，而不是完全依赖公有云。 I/O 瓶颈：视频训练天然是 I/O 密集型任务，数据加载速度很容易成为 GPU 利用率的瓶颈。 Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。 ## 世界模型的定义：三个缺一不可的条件 Ethan He 给世界模型下了一个工程意义上的定义，三个维度。交互性：模型可以响应键盘、鼠标、语音等多种输入，并给出合理的反馈。实时性：响应延迟要足够低。 CS 职业选手需要亚 3 毫秒的响应（300FPS 对应约 3 毫秒每帧），60FPS 游戏需要 16 毫秒，实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。长时程：不是生成几秒钟的片段，而是能持续生成几分钟甚至几小时的内容，同时保持角色、场景、声音的一致性。三个条件同时满足，才算世界模型。目前的视频模型在任何一个维度上都还有很大差距。长时程的工程难题 Cosmos 里 5 秒视频就有约 55K 到 60K 个 token，50 秒就是 500K token，再长就很难处理。现有视频模型的上下文窗口大约在几百万 token 量级，但实际使用中很快就会爆炸。 Ethan He 在 xAI 主导的视频扩展（Video Extension）功能，是迈向长时程的第一步：让模型在生成下一段视频时，能访问之前所有视频的完整历史上下文，而不只是最后一帧或最后一秒。这解决了多次扩展后视频质量退化、人物声音漂移的问题。参考视频（Reference-to-Video）是另一个折中方案：允许用户上传最多 7 张图片作为条件，让模型在生成时参考特定角色或场景。 Ethan He 自己也承认这是个"作弊"方案，真正的解法是让模型自己学会从历史中选择性地提取相关上下文。 FramePack（一篇论文提出的方法）提供了一个启发式思路：最近的历史保留完整分辨率，越早的历史压缩得越小，总 token 数保持固定上限。这和人类记忆的工作方式有些相似，但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留，而不是靠人工设计的规则。 ## 视频模型最大的进步，来自语言模型这是整个访谈里最反直觉的判断，也是 Ethan He 离职的核心原因。扩散模型本身其实很"笨" 扩散模型（Diffusion Model，一种通过去噪生成图像或视频的模型）在训练时被要求按照极其详细的文字描述生成视频，所以推理时也会字面理解用户的输入。你说"一只猫"，它就生成一只猫，白色背景，静止不动，因为你没说背景，没说动作。它取的是训练数据里那种极度详细的描述风格，用户的简短输入和这个分布完全不匹配。提示词重写器才是真正的智能来源真正让模型变聪明的，是提示词重写器（Prompt Rewriter），一个更大的语言模型，负责把用户的简单描述扩展成极其详细的视频描述。 Cosmos 用的是 Llama 或 Mixtral，而且提示词重写器比视频扩散模型本身（7B 参数）还要大。他举了一个具体例子：同样是生成一只快乐的羊，不经过重写，结果看起来像 CGI；经过重写之后，画面质量有质的飞跃，而且这个提升不需要任何联合训练。 GPT Image 生成一张图需要 3 分钟，其中大部分时间不是在生成像素，而是在"思考"，也就是提示词重写和规划阶段。语言模型的角色还在扩展提示词重写只是第一步。现在语言模型在视频生成中的角色已经扩展到： - 工具调用：生成图片前先联网查今天的新闻，处理后再生成 - 智能体协调：调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具，迭代生成高质量内容 - 布局规划：决定视频的结构、时间线和内容组织 Grok Imagine 已经有了一个智能体模式的早期版本，可以通过调用不同工具来生成更长的视频。 ## 音频：被低估的难题 Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。音频的难点在于它有两个截然不同的成分： - 语音部分：接近离散 token（可以理解为有限词汇表里的单词），可以用类似语言模型的方式处理 - 音乐部分：完全连续，无法离散化，现有语言模型对音乐的理解非常有限让语言模型描述音乐细节，就像让盲人描述颜色一样困难。大多数语言模型可以识别"这是哪首歌"，但无法描述音乐的节拍、音调和细节，更无法生成高质量的音乐。更大的挑战是时间对齐。文本和图像之间的对应是松散的，你可以用一段话描述整张图。但音频和视频必须在时间轴上精确对齐：哪一秒有什么声音，必须和画面严格同步。这种精确的时间感知，是现有多模态模型普遍缺失的能力。 ## 生成式 UI：扩散模型作为前端访谈中展示了两个产品案例，代表了 Ethan He 对未来交互方式的判断。 Flipbook：一个用图像生成模型实时渲染的浏览器界面。页面里的所有内容都是模型生成的，公司不存在，场景是虚构的。用户点击链接，模型就生成新的子页面。比如点击"金字塔建造技术"，模型会生成一个详细介绍杠杆技术的新页面，配有对应的生成图像。 Neural OS（神经操作系统）：用视频模型模拟一个完整的操作系统，可以运行 Doom、Firefox 等应用，所有画面都是模型实时生成的。 Ethan He 的预测是：随着推理成本下降，扩散模型会成为人机交互的前端层，语言模型和确定性代码在后端运行，用户看到的所有界面都由生成模型实时渲染。每个用户可以有完全不同的界面，邮件可以像 TikTok 一样滑动，Instagram 可以去掉你总是误触的点赞按钮。他估算了一下成本：如果每 100 个请求 1 美元，每天用 8 小时，每月大约 240 美元。现在确实贵，但推理成本每年大约下降 2 倍，他认为这个未来会到来。他还提出了一个关于人机带宽的判断：人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。所以未来最自然的人机交互方式，是用户说话，AI 用生成式画面回应，这是神经链接（Neuralink）出现之前的最高带宽交互形式。 ## 为什么离开 xAI Ethan He 的回答很直接：有些研究在公司里做不了，而且公司的优先级会快速变化。他想做的，是语言模型方向的研究，特别是模型如何自主管理自己的上下文。他的具体预测是：语言模型很快会出现真正的上下文感知能力，模型知道自己的上下文窗口用了多少，能主动决定压缩、丢弃或保留哪些内容，而不是依赖外部 harness（智能体框架，一种包裹模型的工程系统）的启发式规则。他举了一个例子：现在 Claude（Anthropic 的 AI 模型）在上下文接近上限时会自动触发压缩，但模型本身对这个过程毫不知情，还在按照原来的方式工作。理想状态是模型自己感知到"我快到上限了"，并主动调整策略。他认为视频模型在这方面的探索某种程度上比语言模型更超前，因为视频的长时程问题更紧迫，研究者被迫更早面对这个问题。他还提到一个更激进的想法：如果把智能体框架的代码直接放进模型的上下文，让模型能够修改自己的运行规则，比如决定"读长文档时我要分块处理还是只读前 200 行"，这种自我修改的智能体框架可能是一个值得探索的方向。 ## 职业轨迹：每一次转型都是主动押注 Ethan He 的职业路径本身也值得单独说一下。十年前他在做 ResNet（残差网络，一种经典的图像识别模型架构）时代的图像识别和目标检测研究，同时做模型压缩。他当时想当教授，已经有几篇顶会一作论文，自信地申请了顶校博士，结果全部被拒。被迫进入工业界，反而让他在 Facebook FAIR（Meta 的 AI 研究院，由 Yann LeCun 领导）做了自监督学习，之后到英伟达做 Cosmos 和 MoE（混合专家模型）扩展，再到 xAI 做视频多模态。他在英伟达的另一个重要工作是 Megatron MoE，这是第一个开源的、能够高效训练超大规模 MoE 模型的框架，支持从 1000 亿参数到万亿参数的训练，MFU（模型浮点利用率，衡量 GPU 利用效率的指标）达到约 40%。他的结论是：在机器学习内部切换方向，比大多数人想象的容易。训练大模型的核心原则是通用的，换个方向并不需要从零开始。很多人觉得"我做计算机视觉，就只能做计算机视觉"，但他的经验证明这个边界没有那么硬。 ## 关键判断汇总 ## 局限性和没说清楚的地方这篇访谈有几个地方值得注意：信息不对称： Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论"，比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。成本估算是粗略的：他的存储和训练成本计算是信封背面的估算，实际情况会因数据规模、训练次数、基础设施选择而有很大差异。 "语言模型是瓶颈"这个判断有边界：他承认扩散模型本身的改进仍然重要，只是说在当前阶段，语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。世界模型的定义是他个人的：他在访谈开头就声明，世界模型有很多定义，他只是分享自己的视角，不打算辩论谁对谁错。本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。 Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者，xAI Grok Imagine 视频多模态负责人。

译xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示，视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发，并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂，例如存储10亿个视频需5PB，仅AWS月费就达数百万人民币。视频模型需先预训练图像模型，再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸，而他认为扩散模型对文本的理解过于字面化，对语言意图的深层理解才是突破关键。

向阳乔木@vista8 · 6月3日54

果然做过的人的分享就是不一样，Laten Space 访谈了 Ethan He，罗列一些观点： 1. 模型进步速度，来自于团队迭代速度。 2. 模型质量提升，往往不来自新算法，而是来自修数据和训练流程里的BUG（最近好多研究员播客访谈都提到类似观点） 3. 视频模型训练需要文本视频对标注，画面描述要详细到让盲人听完文字，能在脑海中重建这段视频。 4. GPT Image 生成一张图要几分钟，大部分时间不是在生成像素，而是在"思考"重写提示词。 5. 让语言模型描述音乐细节，就像让盲人描述颜色一样困难。 6. 扩散模型会成为人机交互的前端层，用户看到的所有界面都由生成模型实时渲染。 7. 人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。在脑机接口普及前，最自然的人机交互方式，是用户说话，AI 用生成式画面回应。

译本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验：模型进步取决于团队迭代速度；质量提升常源于修复数据与训练流程的BUG而非新算法；视频模型需要极详尽的文本标注。他还指出，图像生成耗时主要在“思考”重写提示词，且语言模型描述音乐细节非常困难。在脑机接口普及前，最自然的人机交互将是用户说话，AI用生成式画面回应。

Elon Musk@elonmusk · 6月3日22

Trust Grok

译信任 Grok。

swyx@swyx · 6月3日46

probably the best reward function for reasoning efficiency i've seen

译可能是我见过的最好的推理效率奖励函数。

meng shao@shao__meng · 6月3日46

稍等！ WorkBuddy？桌面办公智能体第一？腾讯这是根据哪里的统计得来的数据？

宝玉@dotey · 6月3日52

虽然很多人吐槽 Opus 4.8，但是写 Mac App UI 真的强，Claude Design 设计出来，用 Opus 4.8 去实现，还原度相当不错。感觉我要发布一个 Mac App for X 了

译推文指出，尽管有人批评 Opus 4.8，但它在编写 Mac App UI 时能力很强，配合 Claude Design 使用，界面还原度相当不错。作者同时引用了对 Cursor Agent 的评价作为对比：在常用 GUI Agent 中排名为 Codex App、Cursor 和 Claude Desktop。Cursor 的亮点包括支持多任务并行和灵活选择模型，Plan 模式步骤详细稳定；不足是暂不支持 /goal、手机版，且调试功能仅有内置浏览器。

凡人小北@frxiaobei · 6月3日32

chatgpt 和 codex 是该合并了，我现在打开手机总搜索 codex。

凡人小北@frxiaobei · 6月3日56

Codex 新发布的这几个插件宣传大于实际，插件底层把能团结的友商全拉进来了。如果你是相关 saas 或者工具的用户，那可以满足不少日常工作。但更严谨一些，每个公司每个人都有自己的业务逻辑和规范，最终要起飞还得沉淀自己的 marketplace 和 plugin / skill。回到这个逻辑，Pete 最近采访 YC，关于YC 如何进行 AI-Native 组织改造，值得一看。

译OpenAI Codex推出一系列新插件，覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景，标志着其定位从程序员专用工具向更通用的AI智能体（Agent）转型。然而，有观点认为这些插件目前“宣传大于实际”。其核心论点是，每个公司和团队都有独特的业务逻辑与规范，要真正实现提效，最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

数字生命卡兹克@Khazix0918 · 6月3日65

http://x.com/i/article/2062025288771584000 # 分享Claude Code团队内部的5条工作原则，我觉得每一条都值得学习。今天看到了一个我觉得还挺有价值的东西。就是凌晨的时候，AIHOT上推了Claude Code的一篇blog。还是蛮少见的，很少见类似于Claude这种真正的AI公司，来分享一些组织上的一些想法和思考。特别这次分享的作者，还是当红炸子鸡Claude Code团队的工程总监，Fiona Fung。聊得主题就是他们团队作为AI原生组织，在工作方式和流程上的一些变化。我全部看完了，顺带也把那个半个小时演讲的视频给看完了，还是有很多共鸣的，因为很多思路和想法我们团队也在这么做这么践行的。尤其是她反复提到的一个习惯，就是他们团队里，每遇到一个问题，都会再追问一句：能不能把这件事自动化。这跟我自己一直在说的理念、跟很多朋友提到的一个习惯是一样的。就是如果一件事你需要重复3遍以上，请想尽一切办法，用AI将其自动掉。今天看到Claude Code团队居然在用几乎一模一样的逻辑来运转整个工程组织，还是挺兴奋的。所以想把这篇分享里的一些有价值的东西拎出来聊聊，希望能对大家有用。最最开始的时候，她其实有一个很有意思的判断。就是她说过去这么多年，软件工程的所有流程，不管是瀑布还是敏捷，所有那些规范啊方法论啊，本质上都是围绕一个核心成本在转，就是写代码太贵了这个事。工程师时间贵，所以你得花大量时间做规划、写需求文档、做各种各样的评审、开各种各样的会，全是在管理这个最贵的资源。我相信过去在互联网行业里面待过的小伙伴都能感同身受。但在AI时代，或者说，Agent时代。这个前提变了。在Claude Code团队，写代码已经很少是那个拖慢速度的环节了。那问题就来了，如果写代码本身不再是瓶颈的话，那围绕它的所有上下游的流程，就全部都得重新想了。 Fiona Fung提到了一个非常核心的词，也是她整个分享的最重要的词：转移。瓶颈没有消失，只是转移了。转移到了验证、代码评审、安全。代码生成太快了，新问题变成了，这些代码对不对，怎么维护，人到底该如何跟得上review代码的节奏。左边灰色的就是是旧瓶颈，写代码和发布代码的产能。右边黑色的就是新瓶颈，验证、评审、跨职能协作、安全。这个关于转移的判断，其实如果用AI来介入组织结构里面越深，大家的感触可能就会越明显。我们的组织结构、流程，其实都需要围绕着这个大的变化来去重新设计。就像当年从马车到汽车，不只是把马换成发动机的事儿，我们的整个公路系统、交通规则、城市规划，全都得重新设计。那具体哪些东西需要重新来呢，Fiona列了一张图。列了五个旧流程正在悄悄失效的领域。 1. 规划方式，因为工程速度和产出量完全不同了。 2. 代码所有权，谁写的这段代码变成了一个很奇怪的问题。 3. 代码评审，新的规模、新的形态、新的工具。 4. 团队构成，角色在模糊化，到底什么技能组合才是你需要的。 5. 知识共享，文档不再是唯一的真相来源了。然后她对应地讲了五个她们重建的新规范。包括要让人类的判断力，聚焦在真正需要的地方；新人入职的成本大大降低，甚至一周就可以直接开始产出代码了；少做前期规划，多做原型；招聘更看重创造力和判断力，不看纯产出速度；组织架构更扁平，每个管理者也都先从一线干活开始做起。这里面每一趴，她又都展开来做了一些分享。一. 规划的变化以前因为coding时间贵，你得花大量时间提前规划。 Fiona说她刚加入Claude Code团队的时候，他们写了一个挺漂亮的六个月路线图。结果呢，因为Claude Code本身迭代太快，三个月左右这个路线图就过时了。。。所以他们现在的做法叫JIT规划，Just-In-Time，像JIT编译一样，在对的时间做恰好足够的规划。不再写长篇大论的设计文档了，直接在PR或者原型里面讨论，不再做冗长的产品评审了，先做原型，让内部用户去用，然后根据反馈快速迭代。左边是她们砍掉的东西，就是那个写代码之前必须先写设计文档的仪式。Fiona说对大部分工作来说这就是theater，做戏。现在换成原型先行，文档如果需要存在，写完代码之后感觉可以的话，再补需求文档。右边是她们加码的东西，验证。因为在AI原生的工作流里，东西出bug的方式跟以前不一样了，唯一能保证质量的方式就是不断把验证流程往前推。她还讲了一个观点我觉得特别好。在技术讨论中，代码赢才牛逼。就是如果两个人对一个方案有分歧，最快的解决方式不是继续吵，是让Claude把两个方案都做成原型，看实际的东西来判断。 Building is cheap，做东西很便宜。 Arguing is expensive，争吵才昂贵。想起了当年，互相争某个方案，然后各自PK可能要各写一份PPT，开两轮会来讨论，现在十分钟两个原型都出来了，看着实物聊比对着PPT吵高效一万倍。。。我自己也是类似的路径。以前做AIHOT的时候还试过写比较详细的PRD，结果发现写PRD的时间比我直接用Claude Code把东西做出来还长。。。后来就改了，有想法先做原型，能用了再说。很多功能都是在用的过程中发现不对，当场就改，极速迭代。。。坦率的讲，在AI时代，我觉得过度规划就是浪费。二. 自动化的变化 Fiona说的，在Claude Code团队里，他们每遇到一个这样的问题，都会追问一句，能不能把这件事自动化。她举了一个她自己的例子，她以前每天早上端着咖啡，手动去总结各个客户反馈渠道的内容，这是她的每天固定的工作。后来她把这件事变成了一个后台自动运行的任务，咖啡还是那杯咖啡，但她不再需要边喝边刷了。这个例子听起来很小对吧，就一个总结客户反馈的事儿，能有多大工作量。但重点不在这一件事，重点在这个习惯。 Claude Code团队里每个人，每次遇到一个重复性工作，都会条件反射地问自己，能不能自动化，她说，已经快形成了一种肌肉记忆。这就是我一直在说的东西。如果一件事你需要重复3遍以上，请想尽一切办法用AI将其自动掉。在公司里面我反复跟团队讲，这甚至不是建议，是要求。但坦率的讲，要真正把这个变成团队的肌肉记忆，比说出来难太多了。因为大多数人对自动化的理解还停留在一个很粗的层面，觉得自动化就是写个脚本嘛，搞个定时任务嘛，这我知道，但AI时代的自动化跟以前完全不是一个量级的东西。现在你用Claude Code，很多自动化的事情十分钟就搞定了，甚至不用十分钟。比如我为了同步家里电脑和公司，我就跟Claude说了一句“帮我写一个hook，每次打开我的XX项目之前都去github拉取最新的代码”，几分钟就能跑起来。以前自动化成本高，所以只有高频、高重复度、高价值的事情才值得自动化，但现在自动化成本几乎为零，逻辑就反过来了，几乎所有重复超过3次的事情都应该自动化。除了工作流之外，触发器hook是一个非常好用的东西，这个我感觉以后我可以单独给大家写一篇Agent+hook搞自动化的一些小玩法，还是挺有意思的。一个一个小的自动化攒起来，你会发现，最后这些东西，会在你可能都没反应过来的时候，一起长成了一颗苍天大树。所以如果你现在还在犹豫要不要开始，我的建议是别想太大。别一上来就想着我要搭建一个完整的自动化体系这种东西，那太吓人了，也没必要。就从今天开始，找一件你今天重复做了的事情，花十分钟让Claude Code或者Codex帮你自动化掉。明天再找一件，后天再找一件，一个月以后你回头看，你的工作方式已经完全不一样了。三. 代码评审的变化代码评审这块，Fiona说她过去六个月跟其他工程leader聊天，被问到最多的一个问题就是，你们人怎么跟得上代码review的速度。她的做法叫Trust but verify，信任但验证。 Claude Code团队大量使用Code Review功能。 Claude负责处理所有的风格检查、linting、PR反馈、bug捕捉和修复、补充测试，这些以前可能占了review工作量60-70%的部分，现在Claude全接了。但人类review仍然不可替代，在那些真正需要专业判断的地方。法律合规的东西，Fiona说她永远需要她的法务伙伴参与风险评估，信任边界和安全敏感代码，需要领域专家，产品方向和品味的判断，需要PM和设计师。而且她特别强调了，这个trust和verify之间的平衡是动态的。今天需要人来做的事情，下一个模型可能就能做了，所以你必须得不断重新评估这条线。这就跟打游戏一样嘛，每个版本的版本答案都不一样，你不能拿上个版本的攻略打新版本，那只会被人干死。四. 团队角色的变化 Fiona说在Claude Code团队，角色界限已经变得很模糊了。 PM在大量写代码，工程师也在做内容和设计的事情，以前泾渭分明的边界正在消融。比如以前一个工程师修了个bug，要等内容设计师排期来写用户端的文案，排期这个破事大家懂的都懂，结果要么等好几天，要么赶进度发一个凑合的文案出去。现在的流程是工程师修完bug，Claude来起草文案初稿，人类来做最终判断，当天就能发。跨职能的gap不再是瓶颈了，开始变成了协作者，人类还是做最终决策的那个人，只是不再是写初稿的那个人了。然后她说了一个我非常认同的观点，她现在招人主要看两种特质。一种是有产品sense的创意builder，能识别出该做什么，能快速做出原型。她还特意在描述里强调了一句： Taste is scarce, typing is not. 品味是稀缺的，打字不是。另一种是有深厚系统背景的工程师，负责那些「trust but verify」里最需要人的部分，因为subtly wrong is still wrong，微妙的错误仍然是错误。她说我根本不在乎你一个小时能写多少行代码，我在乎的是你选择去做什么，以及你怎么知道它是对的。当AI能把执行速度提升10倍的时候，决定性的因素变成了你知不知道应该做什么，以及什么样的结果叫真正的优秀。这，就是品味。五. 如何推动团队变化 Fiona她们团队有一些有意思的核心原则。她把团队原则分成了两类。左边灰色是必须做的硬性要求，右边黑色就是大家自己摸索的空间。其实本质上，就是给团队设计了一个harness，核心就是大的方向统一，具体怎么落地各团队自己定。 Fiona总结了三条她最看重的事情。 1. 保持团队尽可能扁平，管理者支持各个小组的工作，但保持灵活让人能流动到工作需要的地方。 2. 如果Claude能做的事情，就让Claude做，这能让我们腾出手来做更难的工作。 3. 人不会主动去删除流程，只会在旧流程上面继续叠新流程，所以你得主动站出来，指名道姓地说出哪些流程可以走了。这三条说起来都没啥特别的，但难在执行，特别是第三条。 Fiona说，她之前在一个团队里，有一个每周的review会议，一大堆人坐在会议室里，但她发现所有人都在看电脑，只有轮到自己汇报的时候才抬头说两句status，说完又低头继续看电脑（我相信我们很多时候的会议也都是这样的）。然后她问了一句，我们为什么还在开这个会。这时候，所有人才意识到，好像，这个会根本不需要。于是，从此，这个会就取消了。这种事太常见了，国内的公司里其实到处都是。无数的流程和会议，当初设立的时候都有道理，但环境变了、工具变了，它们早就失去了存在的意义，只是因为惯性还在那里被迫转着。没有人觉得它有用。但，好像很多时候，也没有人站出来说一句这破逼会太浪费时间了，能不能别开了。 AI在你的组织里介入的越深，你会发现，很多过去的步骤和流程，其实液晶可以自动化了，如果我们不主动去审视，那这些步骤就会一直在那里，最后，变成纯粹的形式主义。最后，Fiona还放了三个她在思考的问题，她没有答案。但是很有意思。第一，你还需要单独的iOS和Android团队吗？因为现在工程师已经可以更灵活地跨平台工作了。第二，全自动化的review到底能推到多远，在「够快了」和「我们漏掉了什么重要的东西」之间那条线在哪里？第三，当角色越来越模糊的时候，怎么确保所有角色都对自己的产出有信心？我觉得她把这三个问题放出来这个动作本身就很有价值。因为你会发现，即使是Claude Code的亲爹团队，也没有把所有事情都想明白。他们也在摸索，很多时候，这就不是一个有标准答案的事情。每一次的大型技术的到来，其实都不只是工具升级，整个组织的运作方式很多时候，都要推倒重来。所谓的AI原生，AI Native，其实也并不是买几个Claude会员或者包个API Key啥的，给大家用就算AI转型了，我一直觉得真正的AI原生组织，从规划方式到知识管理到评审流程到人才结构，每一层都是重新设计过的。我们也没有做到，但是还是在不断的朝这个方向努力，最近加入的一些新的小伙伴，他们的好奇心和自驱力，且没有被过去一些传统且饱受诟病的工作方式所污染，已经感觉让我看到了一些雏形了。而贯穿所有这些变化的，我觉得其实就是开头说的那个最朴素的思维习惯。遇到重复的事情，自动化掉。遇到没用的流程，干掉。遇到不需要人做的判断，交给AI。一个一个来，不着急，但不能停。最后，用Fiona的最后一段话作为结尾吧。 Pick your noisiest workflow. Ask if it still earns its place. 找到你最繁琐的那个工作流，问问它。是不是还配占着这个位置。

译Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是，AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此，团队重建了多项工作规范：采用JIT规划，用快速原型取代冗长的前期文档；将“能否自动化”培养为团队肌肉记忆，用AI解决重复工作；代码评审上采用“信任但验证”，由Claude处理大部分检查，人类聚焦于判断；团队角色界限模糊化，协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处，新成员甚至能在一周内开始产出代码。

SemiAnalysis@SemiAnalysis_ · 6月3日64

OPINION: Codex Desktop App UX & in-app browser is so good for vibing now. Once the OpenAI base model gets better at design, I can imagine codex beating Claude Code CLI soon on SemiAnalysis VibeMAX benchmark just due to better UX. Right now Claude is S tier on VibeMAX & Codex is A+ tier on VibeMAX. Anthropic over investing in Claude Code terminal CLI & underinvesting in Claude Code Desktop App is a fork in the road in the wrong direction.

译观点：Codex桌面应用UX和内置浏览器现在非常适合“氛围编程”。一旦OpenAI基础模型在设计能力上提升，我预计Codex凭借更好的UX，很快就能在SemiAnalysis VibeMAX基准上超越Claude Code CLI。目前Claude在VibeMAX上是S级，Codex是A+级。Anthropic过度投资Claude Code终端CLI，而对Claude Code桌面应用投入不足，这是走错了岔路。

Yuchen Jin@Yuchenj_UW · 6月3日63

Opus 4.8 doesn’t feel like a big upgrade from Opus 4.7. Meanwhile, GPT-5.4 to GPT-5.5 felt like an actual jump. Now I’m really curious what 5.6 looks like. Is Anthropic saving Mythos for the IPO or what?

译Opus 4.8 相比 Opus 4.7 没有带来很大的升级感。与此同时，GPT-5.4 到 GPT-5.5 的升级感觉是真正的飞跃。现在我很好奇 5.6 会是什么样子。 Anthropic 是在为 IPO 保留 Mythos 吗？

Logan Kilpatrick@OfficialLoganK · 6月3日16

to be underestimated is to be free

译被低估，即是自由。

Rohan Paul@rohanpaul_ai · 6月3日60

AI agents should treat memory as a changing web of useful connections, not static storage. Most agent memory systems retrieve old facts as if the past were a filing cabinet. The paper proposes FluxMem, a memory system that stores facts, past task episodes, and reusable skills as connected pieces in a graph. When the agent works on a task, FluxMem first gathers likely useful memories, then uses feedback from the task to fix the memory connections by adding missing links, removing bad ones, or rewriting memories at the right level of detail. Over time, it also turns repeated successful task paths into reusable skills, so the agent does not need to rebuild the same reasoning pattern again and again. The authors tested FluxMem on long conversation memory, web navigation, and general assistant tasks, which checks whether the idea works across very different agent problems. FluxMem got stronger results than the compared memory systems, including 95.06 average accuracy on LoCoMo and a 12.73-point gain on GAIA with Kimi K2. The big deal is that the paper shifts agent memory from “store and retrieve” toward “keep repairing and strengthening the connections that actually help the agent act.” ---- Link – arxiv. org/abs/2605.28773 Title: "Rethinking Memory as Continuously Evolving Connectivity"

译FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

Ethan Mollick@emollick · 6月3日53

My timeline seems to have people surprised that U Chicago is getting Claude, but tons of schools (including U Penn where I teach) have school-wide AI There are lots of things that need to be figured out about AI & scholarship but safe & equitable access is a necessary foundation

译我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶，但许多学校（包括我任教的宾夕法尼亚大学）都已实现全校范围的AI接入。关于AI与学术研究，仍有许多问题需要解决，但安全且公平的接入是必要的基础。

SenseTime@SenseTime_AI · 6月3日35

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also noted that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译在2026 AI创新论坛上，商汤联合创始人兼首席科学家指出，模型架构优化能显著降低单位智能的计算成本，并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在信息图生成任务中实现了显著更低的计算成本，并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。

Sam Altman@sama · 6月3日59

theUSshould lead on AI by continuing to develop the very best models, making sure they're safe, and getting cyber tools into the hands of trusted defenders. the new EO gets the balance right.

译美国应通过持续开发最优秀的模型、确保其安全、并将网络工具交到可信的防御者手中来引领AI发展。新的行政令取得了正确的平衡。

SenseTime@SenseTime_AI · 6月3日34

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also note that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译商汤联合创始人兼首席科学家在2026 AI创新论坛指出，模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在生成信息图时实现了显著更低的计算成本，并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展，以创造商业价值与长期竞争力。

jason@jxnlco · 6月3日20

I have aphantasia so the gpt-image-2 error don't affect me

译我有心像缺失症，所以GPT图像生成错误对我没有影响。

Orange AI@oran_ge · 6月3日48

Opus 4.7、4.8 的接连失败令人费解价格更贵，效果无提升，甚至负提升看看日历，突然意识到 Claude 已经停滞了 4 个月即便是掌握了模型训练的方法，即便内部已经有了 Mythos 这样的开发利器模型的进步还是没有太多加速，依然半年一次大更新？

译推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳，价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月，即使内部拥有 Mythos 等开发工具，模型进步速度依然未显著加快，仍维持约半年一次重大更新的节奏。

Ethan Mollick@emollick · 6月3日40

The everything apps still look a lot like hybrids between chatbots and IDEs, rather than something built for general knowledge work. Too much assuming linearity & that final outputs are the only goal, too little connection to research, not enough chances to steer or select, etc.

译那些"全能应用"看起来仍然很像聊天机器人与 IDE 的混合体，而非为通用知识工作而构建的东西。太多假设线性流程且最终产出是唯一目标，太少与研究的连接，不够多的引导或选择机会，等等。

Emad@EMostaque · 6月3日17

this is fine 🐶☕️🔥

译这没事 🐶☕️🔥 [引用 @EMostaque]：我对 Claude Opus 4.8 的评价：我们应该少担心被变成回形针，多担心被烦死。

Chubby♨️@kimmonismus · 6月3日50

Just figured out that „Mai“-1 thinking stands for: Microsoft AI-thinking. 🤯

译刚刚发现“Mai”-1 thinking 代表：微软 AI 思考。 🤯

Ethan Mollick@emollick · 6月3日24

I wish the logos and textbox-at-the-bottom interfaces for Discord and Codex did not look so alike at a glance. I have confused the two a couple of times, leading to a confused GPT-5.5 and a confused groupchat.

译我希望Discord和Codex的标志以及底部文本框界面不要乍一看那么相似。我已经混淆过好几次了，导致GPT-5.5和群聊都一头雾水。

Ethan Mollick@emollick · 6月3日38

It is difficult to know how good MAI-Thinking-1 is from the scores alone (like weirdly low GPQA & Terminal Bench 2.0) But Microsoft makes it really hard to try its models upon release (a general issue with many Microsoft AI products), so I dunno. Stats below Meta Spark, though.

译仅从分数很难判断 MAI-Thinking-1 有多好（比如 GPQA 和 Terminal Bench 2.0 的分数低得奇怪）但微软在模型发布后很难让人试用（这是许多微软 AI 产品的通病），所以我不太清楚。不过数据低于 Meta Spark。

Chubby♨️@kimmonismus · 6月3日58

Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitude in the next few years

译Mustafa Suleyman, Microsoft AI: 7个新微软模型，开发无止境，未来几年数量级提升

jason@jxnlco · 6月3日41

10 takeaways from OpenAI’s new report on knowledge work and Codex. codex isnt about coding anymore, but all knowledge work!

译OpenAI关于知识工作与Codex新报告的10个要点。 Codex不再仅限于编码，而是面向所有知识工作！

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月3日63

我對 NVIDIA RTX Spark 的幾個想法（先不討論規格細節）：裝置端 AI agent 敘事、實現檢視與 Apple WWDC 1. 核心是 NVIDIA CEO 黃仁勳提出的「重新發明 PC」口號，以及裝置端 AI agent workflow 的概念展示（會說概念展示，是因為沒有實機演示）。上述口號與概念展示，有助於短期內加速形成市場對裝置端 AI agent 的共識。 2. 裝置端 AI agent 展示概念元素： OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox 此概念並非原創，但藉由 GTC 的高曝光度與敘事張力，在可見未來將會主導裝置端 AI agent 使用者情境的敘事。 3. 雖然黃仁勳領先提出了裝置端 AI agent 的願景與敘事，但畢竟未來 2 年內，RTX Spark 裝置仍是筆記型電腦的利基市場，因此現在判斷商業競爭誰輸誰贏還太早。 4. 在 GTC 前，絕大部分關於 RTX Spark（N1X）的討論與預測都聚焦在晶片代號、規格與供應鏈；相較之下，作業系統的重要性鮮少被提及。而黃仁勳此次演說，將作業系統與晶片平台一同放在「重新發明 PC」的核心位置，這也呼應了我先前提出的核心觀點：裝置端 AI 推動升級換機潮的關鍵在作業系統。 5. 軟體是使用者體驗的關鍵。若要確保使用者能體驗到黃仁勳展示的 agentic workflow，仍有很多工作待完成。至少要看到 NVIDIA 的 CUDA Toolkit 公開支援 Windows Arm64，以及 Microsoft 讓 Windows 本機 AI agent 架構從預覽版走向正式商用（GA），包括目前仍在 public preview 的 MCP on Windows、ODR、agent 連接器，以及仍在 private preview 的 Agent Workspace。如果硬體發售時，上述開發與 OS 工具仍不到位，RTX Spark 裝置就很難兌現發表會的核心訴求，也就是讓使用者真正創造並體驗 AI agent workflow 這個關鍵賣點。 6. 在黃仁勳提出「重新發明 PC」的口號後，Apple 預計在 6 月 8 日舉辦的 WWDC，會如何回應裝置端 AI agent workflow，就變成除了 Siri 改善程度以外的另一個觀察重點。對 NVIDIA 與 Microsoft 而言，即使 RTX Spark 後續開發與出貨時程有任何變動，也無損這兩家公司在 AI 基礎建設的強勁成長動能。相較之下，消費電子就是 Apple 硬體事業的全部，而裝置端 AI 就是消費電子創新趨勢的主軸，因此 Apple 除了要提出吸引人的敘事外，也需要給出明確的實現規劃，例如更明確的開發工具、agent-ready OS 的更新時程等。

译郭明錤认为，NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号，核心是展示端侧AI agent工作流概念。他指出，该概念并非原创，但将借助高曝光度主导未来叙事。然而，现实挑战在于：配备N1X芯片的RTX Spark装置未来两年出货量约1000万台，仍属利基市场；且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持，Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。

Lee Robinson@leerob · 6月3日58

Quick rant on AI model benchmarks: - Some of the most popular ones are no longer helpful (SWE-bench¹) - It can be very hard to reproduce reported results (so lots of variance) - Take them with a grain of salt, look at the average across many We need some creative new ideas for AI model marketing. Supportive of a Survivor spin-off (who is the AI Jeff Probst!?). I get why every model release shows benchmark scores as the headline. It's actually pretty hard to describe how a model has improved without it sounding like fluff. And also it sounds boring to say the same thing over and over ("it's better at following instructions" repeat x10). Benchmarks make it very clear there is a number, which likely started bad, and is now going up. Yay! The reality is that benchmarks are most useful to those *training* the model so they know where to improve. Model labs use these benchmarks to measure progress, which is why having non-saturated benchmarks is extremely helpful. If you see models getting 90% on an eval, it's probably time to make a harder version. I do think there's a word of caution for everyone interpreting benchmarks. It's very hard to get exactly the same scores, which is why some benches show error bars and do the average over multiple runs. But even further, the hardware and GPUs the evals are running on really matter! Small differences there, or minor tweaks to the prompt, can swing scores by multiple percentage points². All of that to say, it's important to look at many different benchmarks, and then actually use the model to make your own opinion. For example, there's recently been a lot of debate on here about Opus 4.8 not benchmarking as well as other models. But personally I've found the model really good from my own usage. Your mileage may vary! There aren't many high-quality public benchmarks that measure things like the UX of the model responses, the style of the messages, the warmth or directness of the "personality". These things matter *a lot* for the day-to-day usage. How the model performs in the real world is often different from very specific benches. In summary, benchmarks matter but they are not a substitute for extensively testing the model yourself with real work. ¹: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified ²: https://www.anthropic.com/engineering/infrastructure-noise

译Lee Robinson 批评当前AI模型基准测试存在局限，如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响，波动明显。这些基准对模型训练者衡量进展有价值，但对普通用户，当分数饱和时便失去参考意义。他指出，模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此，建议用户综合参考多个基准，并亲自使用模型以形成判断。

Ethan Mollick@emollick · 6月2日60

Another thing about AI writing is that while a single instance of AI writing on a topic may be fine, any situation where lots of people use AI to respond to a particular prompt (comments sections, homework, admissions essays) the similarities among responses is tediously obvious.

译关于AI写作的另一点是，虽然单次针对某个话题的AI写作可能没问题，但在许多人使用AI回应特定提示的任何情况下（评论区、作业、申请文书），回应之间的相似性会变得极其明显。

Orange AI@oran_ge · 6月2日57

「当软件编写成本趋近于零时，我发现自己对野心的追求已超越一切。那种不可理喻、不可阻挡的野心。」这句话来自投资人 Mike Vernal（前 Facebook VP、前红杉合伙人）写的一篇文章，他的文章里说软件的"三段式剧本"已经过时了，在剧变时代最重要的直接进入深水区的野心（Unreasonable, unrelenting ambition）。旧剧本是这样的：第一幕：找一个楔子（wedge），切一个细分市场，做到几千万 ARR，花 3-5 年第二幕：从单品扩展成套件（suite），交叉销售，做到一亿 ARR，又花 3-5 年第三幕：变成平台，替掉底层系统他说这个剧本死了，因为： AI 让写软件的成本趋近于零。以前你只能单线程推进，先搞定第一幕再想第二幕。现在 Cursor、Clay、Harvey、Lovable 这些公司两年就从 0 到一亿 ARR。时间窗口压缩了，你没有慢慢来的余裕了。他的新结论：别找楔子了，直接跳到深水区。一开始就做整件事。他举了 Cursor 的例子：当初种子轮的时候 Cursor 就说要直接替掉 VS Code，他觉得疯了（VS Code 刚统一了市场你就要替？）。结果他错了。现在回头看，替掉 VS Code 反而都不够大胆。「当软件编写成本趋近于零时，我发现自己对野心的追求已超越一切。那种不可理喻、不可阻挡的野心。三段式剧本已经过时。在剧变时代依赖楔子策略未免过于保守。要我说，既然决定放手一搏，不如直接赌上全部身家。」

译投资人Mike Vernal认为，AI让软件编写成本趋近于零，传统“找楔子→扩展套件→变平台”的三段式创业剧本已过时。他指出，Cursor等公司能在两年内从0做到一亿ARR，时间窗口被极大压缩。因此，他主张在创业初期就直接瞄准核心市场（即“深水区”），展现不可理喻、不可阻挡的野心。他以Cursor种子轮时就声称要替代VS Code为例，认为这个目标如今看来甚至还不够大胆。

Chubby♨️@kimmonismus · 6月2日50

At @Google I/O, I sat down with @osanseviero and @DynamicWebPaige from Google DeepMind to talk about Gemma, open models, AI Studio, on-device AI, sovereign AI and the future of AI development. A great conversation on how building with AI is becoming more open, local and accessible.

译在 Google I/O 上，我与 Google DeepMind 的 @osanseviero 和 @DynamicWebPaige 坐下来，聊了聊 Gemma、开源模型、AI Studio、端侧 AI、主权 AI 以及 AI 开发的未来。一场关于 AI 构建如何变得更开放、更本地化、更易获取的精彩对话。

歸藏(guizang.ai)@op7418 · 6月2日43

收到了 @dotey 宝玉老师的图解 Skill，已严肃阅读里面的配图都很有意思，非常适合理解内容，要是对 Skill 学习有需求可以看看

meng shao@shao__meng · 6月2日52

如果你现在还在大厂，不管稳定不稳定、核心不核心、绩效好不好、有没有晋升，都要做好准备，要么找到自己要做的事、要么找到志同道合的初创团队，去创业！！！为什么呢？我在大厂很稳定、收入也有保障，为什么要听你瞎扯？ 1. 你认为的稳定，并不真实，2026 年，国内没有哪个大厂是稳定的，对，一个都没有！你的岗位、你的组、甚至你的部门，随时都可能被「组织架构调整」，到时，就被动了。。 2. 创业这么不确定、风险这么高，不想去？AI 发展这么快，像一条湍急向前的河流，当然是不确定的，谁都不知道一年甚至半年后是什么样，但更重要的是身在其中，跳进这条河流，你才能真的学到东西，方向变了，又怎么样呢，去适应甚至引领新的方向就好了；如果只是在大厂里，看着外面的 AI 发展，你什么也学不到！ 3. 作为产品或研发，什么对你的价值更高呢？个人品牌、不管环境怎么变，让自己成为那个稀缺和抢手的存在！学习一手知识、实践、对外输出、建立个人影响力！ 4. 最近面试见过太多迷茫的大厂人和海归，有优秀的学历和工作背景，但在 AI 的快速发展中焦虑、迷茫，感觉自己以前的优势不成立了。没关系，那些都能佐证你的学习能力，下一个一定要重点投入学习的，就是 AI Agent，不用想那么多，先学起来，学起来自然会遇到各种问题，去不断地解决它，你也就学到了真正有用的东西。

译该推文核心观点是，2026年国内大厂已无绝对稳定，所有员工都应做好准备，要么创业，要么加入初创团队。其理由在于，大厂岗位随时可能面临“组织架构调整”，而AI发展迅猛，唯有投身实践才能真正学习。对于产品或研发人员，建立个人品牌和稀缺性价值更高。推文作者指出，许多大厂人和海归因AI快速发展而焦虑迷茫，建议他们立即重点学习AI智能体（AI Agent），通过解决实际问题来积累真正有用的能力。

AYi@AYi_AInotes · 6月2日66

同样站在 2009 年那个路口，有人只看见一块显卡，有人看见了往后二十年整个计算的样子。那年 Nvidia 市值 40 亿，是 Intel 的零头，所有人都笑黄仁勋不过是个卖游戏配件的。那时候 Nvidia 市值 40 亿，Intel 1000 亿，差了 25 倍。他说了句在场没人当回事的话：PC 的杀手应用是 Word 和 Excel，所以串行架构的 CPU 是王者，但未来电脑要处理的不是打字和算数，是图像、3D 虚拟世界、艺术表达。这些东西全是并行任务，CPU 搞不定。 17 年后，Nvidia 5 万亿，Intel 五千多亿，25 倍的劣势，变成了接近 10 倍的反超。但我看了两遍才发现，这条视频最狠的不是老黄预测对了 AI，他 2009 年根本没提 AI。他预测对的是另一件事：异构计算的必然性。 CPU 管串行，GPU 管并行，两个都要，但 GPU 的相关性在上升，这个判断后来成了现代计算的铁律——手机 SoC、AI PC、数据中心，全是这个逻辑。而且他在 2005-2006 年就把 CUDA 押上去了，一个显卡公司搞通用计算平台，投资人觉得他疯了。打个比方，就像在一片荒地上挖了口井，当年所有人都在笑，自来水不香吗你挖什么井，但十几年后城市盖起来了，才发现只有你这口井挖到了最深的蓄水层——所有房子的水管都只能接你这一口。 CUDA 就是这口井，黄仁勋挖了二十年。他没去追 Intel 的赛道，默默在在修自己的路，从图形到科学计算到深度学习到生成式 AI 到物理世界模拟——每一步迁移，这条路都在变宽，十七年后，所有的车都拐上了他修的这条路。远见从来不稀缺，酒桌上人人都有。稀缺的是认准之后，肯花十年时间，把一句没人信的判断，亲手浇筑成一条别人绕不过去的护城河。今天这个路口也站满了人，有人在盯更强的模型，有人在看下一个计算平台长在哪。我们最该盯的其实不是市值曲线，应该是创始人嘴里那个词，黄仁勋在访谈里反复说 relevance——他不纠结谁更大，只纠结自己做的事跟未来还相关吗。我觉得这句话比任何技术判断都值钱。 2009 年人人都说 Nvidia 就是个做显卡的，跟今天有人说某家 AI 公司就是个做 XX 的一模一样。但真正的 alpha，永远藏在对工作负载演进方向的预判里。

译NVIDIA发布RTX Spark芯片，这是一款3nm制程SoC，集成ARM CPU、Blackwell GPU与128GB统一内存，号称可本地运行120B大模型并满帧运行3A游戏。此举被视为NVIDIA从图形计算到AI时代持续押注并行计算与异构计算路线的成果，凭借积累二十年的CUDA生态，直接挑战Intel、AMD主导的传统PC架构，标志着PC行业竞争转向AI算力与软件生态。文章同时指出，该芯片的ARM版Windows兼容性、散热与最终定价等问题，是后续需要观察的现实挑战。

AYi@AYi_AInotes · 6月2日60

大家都知道我是实用主义AI玩家，昨天发了这篇skills保姆教程和一些变现思路之后，后台不少宝子私信问我 AI 到底怎么变现，想要付费学习，这个话题很大，先分享一些我的思考，说到AI变现，其实我有发现一个规律，就是盯着用哪个工具、怎么接单的，基本都还在拿时间换钱。真正闷声发财赚到的那拨人，做的是另一件事，把自己脑子里那套方法论，结晶成一个能被 AI 反复调用的 skill。差别在哪呢，你接一单干一单，是用自己的时间精力换钱，人一停，钱就停，但如果是做成一个skills，喂给你的龙虾，Hermes，Claude code，Codex等agent，它们替你干活，你出去玩它还在接活交活，边际成本几乎是零。我自己这半年就在干这事，把写作、选题、提示词、封面配图这些套路，一个个都做成了 skill，然后训练我的Agent，现在很多活不是我在干，大部分都交给我那几个agent 了。而且把 AI 变现这四个字去掉，你会发现，这是我们所有想要做商业变现的人迟早要面对的事，过去你卖的是时间，一小时换一份钱，往后你卖的，是一个不用你在场也能干活的分身。当然也得泼盆冷水分享点正能量价值观，钱没那么好赚的，别整割韭菜骗人那一套，能结晶成 skill 的前提，是你手里真有一套被验证过的方法论，没有真东西，封装出来的只是空壳，AI 一眼就拆穿，用户也不傻，骗人的代价也很大，这个底层逻辑大家一定要明白。所以我理解AI 时代最值钱的，可能不再是你会用多少工具，而在于你能不能把自己最拿手的那点本事，封装成一个别人离不开的 skill，这是我希望大家要好好思考的。

译作者指出，当前许多人仍停留在用AI工具接单的“时间换钱”模式。真正的高价值路径是将个人验证过的方法论（如写作、选题、提示词等）封装成可被AI智能体（如Claude Code、Codex等）反复调用的“技能（Skill）”。这能实现边际成本近乎为零的被动收益，其本质是将自身技能转化为一个“分身”。作者强调，封装的前提是拥有真实、被验证过的方法论，而非空壳，并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。