Elon Musk on building a self-growing city on the Moon: "You don't necessarily have to go through the moon to get to Mars. We can build a self-growing city on the moon faster than we could do so on Mars, and there's also the potential, if you say you want to scale far beyond what you can do from Earth, is that because the moon has no atmosphere and about 1/6 Earth's gravity, you can use an electromagnetic accelerator, a rail gun or mass driver, basically you don't need to use rockets to do AI data centers into deep space from the moon, you can literally just shoot them like a, like a rail gun type of thing, and and you can manufacture the solar, the solar and the radiators, solar power and radiators on the moon from moon materials that would allow scaling potentially to beyond 1000 terawatts a year, which is a truly staggering number. I think we can do probably do somewhere around one terawatt per year of AI space compute from Earth, but we can do 1000 terawatts or more from the moon."

译Elon Musk 在摩根大通直播中提出，可在月球上更快建成自生长城市，并利用月球无大气、1/6地球引力的条件，通过电磁加速器（磁轨炮/质量驱动器）将 AI 数据中心直接射入深空，无需火箭。月球的太阳能和散热器可用月面材料制造，使 AI 空间算力规模从地球每年约 1 太瓦（terawatt）跃升至每年超 1000 太瓦。

DogeDesigner@cb_doge · 6月5日31

ChatGPT vs Grok Asked both to turn this pixelated logo into a high-resolution image. ChatGPT failed badly while Grok delivered a clean, sharp, high resolution image. Grok is the clear winner.

译ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败，而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。

Elon Musk@elonmusk · 6月4日43

Grok Imagine 1.5 at rank 1

译Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。主推文：Grok Imagine 1.5 排名第一。

Elon Musk@elonmusk · 6月4日61

Try Grok Voice

译xAI 推出 Grok Voice，其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准（真实世界智能客服解决能力评测）中排名第一，大幅超越 GPT-Realtime-2 (High) 和 Gemini 3.1 Flash。该模型已实际部署，通过自然语音为 Starlink及多家企业提供实时客户服务，完全以语音交互驱动。

DogeDesigner@cb_doge · 6月4日39

Grok Imagine 1.5 video quality is seriously impressive. 🔥

译Grok Imagine 1.5 视频质量确实令人印象深刻。🔥

Elon Musk@elonmusk · 6月4日71

Grok on Cloudflare

译xAI 与 Cloudflare 合作，将 Grok 的 LLM、音频、图像和视频模型接入 Cloudflare AI Gateway，用户可直接通过 Cloudflare 计费，无需额外认证或 API 密钥。Elon Musk 发推称 "Grok on Cloudflare"。

Elon Musk@elonmusk · 6月4日72

Grok Imagine on Vercel

译Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频，一次性完成。示例代码： `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Elon Musk@elonmusk · 6月4日73

Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

译伊利亚特（特洛伊）预告片由刚刚发布的 Grok Imagine 1.5 制作

xAI@xai · 6月4日69

Try Grok models on @Cloudflare's AI Gateway!

译在 @Cloudflare 的 AI Gateway 上尝试 Grok 模型！

xAI@xai · 6月4日45

Meet Go by Gopuff and SpaceXAI: your personal shopping assistant that knows what you want and delivers in minutes. Powered by Grok text, audio, and image models.

译认识由Gopuff和SpaceXAI推出的Go：你的个人购物助手，它知道你想要什么，并在几分钟内送达。由Grok文本、音频和图像模型驱动。

Elon Musk@elonmusk · 6月4日29

Built with Grok

译Gopuff推出了AI购物助手Go，由SpaceXAI联合开发。只需说出你需要的，商品已在路上。基于Grok构建。

DogeDesigner@cb_doge · 6月4日78

SpaceXAI is cooking.

译Grok Imagine 1.5 预览版已发布，即日起可在 API 中体验。SpaceXAI 正在发力。

xAI@xai · 6月4日70

Try the most natural TTS and cost-effective STT APIs in @Vapi_AI

译试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体，可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节，并在每次通话中明显更具人性化。

DogeDesigner@cb_doge · 6月3日49

Grok Imagine is pretty cool for product marketing. Turn a quick phone photo into a professional ad in seconds.

译Grok Imagine 在产品营销方面相当不错。将手机随手拍的照片在几秒钟内变成专业广告。

Emad@EMostaque · 6月3日42

Yo @xai team, this would be an amazing demo of @grok capability. Push button, have it read all your bookmarks, organise them, make a report on the most interesting one and your interests over time etc

译嘿 @xai 团队，这将是一个展示 @grok 能力的绝佳演示。一键操作，让它读取你所有的书签，整理它们，就最有趣的书签以及你长期以来的兴趣生成报告等。

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2062080260586283008 # xAI 视频多模态负责人访谈：视频模型的天花板，其实是语言模型一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人，离职时说的理由是：视频模型最大的瓶颈，其实是语言模型。 Laten Space最近访谈了Ethan He，内容很不错，让AI转写一篇文章。 > https://www.latent.space/p/video-agents ## 他是谁，做过什么 Ethan He 是一位多模态 AI 研究员，职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。在英伟达期间，他是 Cosmos 视频基础模型的核心作者之一。 Cosmos 是一个大规模视频生成模型，目标是模拟物理世界，作为机器人研究的基础底座，于 2024 年底发布。 2025 年中，他加入 xAI，主导 Grok Imagine 的视频和多模态方向，包括： - 音频视频联合生成（Grok Imagine 0.9） - 视频扩展（Video Extension，支持完整历史上下文的长视频生成） - 参考视频生成（Reference-to-Video，支持上传最多 7 张图片作为角色或场景条件） - 内部世界模型团队（专注实时长时程视频生成）访谈时他刚刚离开 xAI，准备转向语言模型方向的研究。 ## 三个月从零到视频模型，靠的不是算法加入 xAI 时，团队没有数据、没有基础设施、没有现成模型，只有几个工程师。三个月后 Grok Imagine 0.9 发布。他总结了两个关键因素。第一是人的密度，而非人的数量。团队里每个人都很强，目标高度一致，沟通成本极低。每天只有一个例会，其余时间全部用来构建。他的观察是：小团队减少沟通带宽，反而比大团队更容易快速迭代。第二是迭代速度，而非单次训练质量。他的核心判断是：训练模型最重要的指标，不是某次实验的结果有多好，而是每天能跑多少轮实验。迭代越快，发现 bug 的机会越多。而且他特别强调：模型质量最大的提升，往往不来自新算法，而来自数据管道和训练流程里那些不起眼的小 bug。这听起来有点怪，但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。他还提到一个时间节点：2025 年中加入时，代码模型还不够好，写出来的代码经常是几千行的"意大利面条"，连模型自己都搞不清楚怎么维护。到 2025 年 12 月，代码模型已经强到可以快速实现任何想法。这带来了一个新的瓶颈反转：以前是写代码慢，现在是算力跟不上想法的速度。代码几小时就能写完，但训练一个新模型可能要等好几周。 ## 视频模型是怎么炼出来的：完整路径第一步：先训图像模型，再训视频模型原因很实际，图像比视频便宜得多，而且语言和图像之间的对应关系更密集。举个具体数字：训练 10 亿张图文对，和训练 10 亿个视频文本对，成本完全不在一个量级。但前者能给模型打下更扎实的语言理解基础。视频模型对语言的理解，完全来自这种文本到视觉内容的映射关系。如果映射数量不够，模型就不能充分理解人类意图。所以标准做法是：先训图像扩散模型，再用它作为基础，迁移到视频模型。第二步：解决数据对齐问题互联网上的视频天然缺少精准的文字描述。 YouTube 上的标题和评论，和视频内容本身几乎没有关联。一段山川自然风光，标题可能是"今天真开心"，二者毫无关系。所以必须用 VLM（视觉语言模型，能同时理解图像和文字的 AI 模型）给视频打字幕，生成合成的文本视频对。但 VLM 本身在早期也需要人工标注来冷启动。 Cosmos 的标注要求非常具体：描述要详细到让一个盲人听完文字，就能在脑海中重建出这段视频。所有物体、角色、互动、对话，都要覆盖。这个标准直接决定了后来视频模型能不能真正理解人类意图。第三步：训练 VAE（变分自编码器，一种把图像压缩成低维表示再还原的压缩器）原始视频帧的像素量太大，1000×1000 的图像就有 100 万个像素，Transformer（一种主流的 AI 模型架构）根本无法直接处理。 VAE 把图像映射到一个低维的连续潜空间（latent space，可以理解为图像的"压缩编码"），再从潜空间还原回图像。具体做法是把图像切成小块（patch），每个小块映射成一个向量，这样一张图就变成了几十个向量，而不是 100 万个像素。时间维度的压缩比例是个关键决策。 Wan 2.1 采用 8×8×4 的压缩率，时间维度压缩 4 倍，上下文长度大幅缩短，训练效率更高。但代价是实时性：如果要做实时交互，时间维度的压缩会引入固定的延迟，无法做到即时响应。如果不压缩时间维度，只做帧内压缩（8×8×1），上下文长度会是 4 倍压缩方案的 4 倍，计算量大得多，但可以支持帧级别的实时输出。第四步：训练扩散 Transformer（Diffusion Transformer）流程和语言模型非常相似，区别只是输入输出换成了视觉 token（图像的压缩表示），以及加入了去噪过程：向视觉 token 加入随机噪声，训练模型把噪声去掉，推理时从纯噪声开始迭代生成干净的图像或视频。推理侧的主要优化手段是步骤蒸馏（Step Distillation）：用完整模型跑 100 步生成高质量结果，再训练一个只需要 10 步的小模型去模仿它。这背后的逻辑是：完整模型要学的是整个互联网的图像分布，极其复杂，蒸馏模型只需要学老师模型的分布，简单得多。 Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成（针对图生图等简单任务）。 ## 训练一个视频模型到底要花多少钱 Ethan He 做了一个粗略的估算，数字很有参考价值。模型规模：视频模型和中等规模语言模型相当。 LTX 是 19B（190 亿）参数的稠密模型，也有人在探索 MoE（混合专家模型，一种让模型只激活部分参数的架构），激活参数约 20B，总参数可能达到数百 B。 Cosmos 公开披露的视觉 token 数量也在数十万亿量级，和语言模型的训练规模接近。存储成本：假设有 10 亿个视频，每个视频 5MB，光存储就需要 5PB（5000TB）。加上 VAE 提取的特征文件，总存储量翻倍，达到约 10PB。在 AWS S3 标准存储上，5PB 的月存储费用约 23 万人民币，加上数据出口费用，每月总成本可能达到数百万人民币，还没算 GPU 训练成本。他特别提到：数据出口费用（把数据从云端传输出去的费用）比存储本身更贵。每次训练都需要把数据拉取一遍，如果多次训练，费用成倍叠加。这也是为什么大规模训练团队通常会自建存储基础设施，而不是完全依赖公有云。 I/O 瓶颈：视频训练天然是 I/O 密集型任务，数据加载速度很容易成为 GPU 利用率的瓶颈。 Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。 ## 世界模型的定义：三个缺一不可的条件 Ethan He 给世界模型下了一个工程意义上的定义，三个维度。交互性：模型可以响应键盘、鼠标、语音等多种输入，并给出合理的反馈。实时性：响应延迟要足够低。 CS 职业选手需要亚 3 毫秒的响应（300FPS 对应约 3 毫秒每帧），60FPS 游戏需要 16 毫秒，实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。长时程：不是生成几秒钟的片段，而是能持续生成几分钟甚至几小时的内容，同时保持角色、场景、声音的一致性。三个条件同时满足，才算世界模型。目前的视频模型在任何一个维度上都还有很大差距。长时程的工程难题 Cosmos 里 5 秒视频就有约 55K 到 60K 个 token，50 秒就是 500K token，再长就很难处理。现有视频模型的上下文窗口大约在几百万 token 量级，但实际使用中很快就会爆炸。 Ethan He 在 xAI 主导的视频扩展（Video Extension）功能，是迈向长时程的第一步：让模型在生成下一段视频时，能访问之前所有视频的完整历史上下文，而不只是最后一帧或最后一秒。这解决了多次扩展后视频质量退化、人物声音漂移的问题。参考视频（Reference-to-Video）是另一个折中方案：允许用户上传最多 7 张图片作为条件，让模型在生成时参考特定角色或场景。 Ethan He 自己也承认这是个"作弊"方案，真正的解法是让模型自己学会从历史中选择性地提取相关上下文。 FramePack（一篇论文提出的方法）提供了一个启发式思路：最近的历史保留完整分辨率，越早的历史压缩得越小，总 token 数保持固定上限。这和人类记忆的工作方式有些相似，但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留，而不是靠人工设计的规则。 ## 视频模型最大的进步，来自语言模型这是整个访谈里最反直觉的判断，也是 Ethan He 离职的核心原因。扩散模型本身其实很"笨" 扩散模型（Diffusion Model，一种通过去噪生成图像或视频的模型）在训练时被要求按照极其详细的文字描述生成视频，所以推理时也会字面理解用户的输入。你说"一只猫"，它就生成一只猫，白色背景，静止不动，因为你没说背景，没说动作。它取的是训练数据里那种极度详细的描述风格，用户的简短输入和这个分布完全不匹配。提示词重写器才是真正的智能来源真正让模型变聪明的，是提示词重写器（Prompt Rewriter），一个更大的语言模型，负责把用户的简单描述扩展成极其详细的视频描述。 Cosmos 用的是 Llama 或 Mixtral，而且提示词重写器比视频扩散模型本身（7B 参数）还要大。他举了一个具体例子：同样是生成一只快乐的羊，不经过重写，结果看起来像 CGI；经过重写之后，画面质量有质的飞跃，而且这个提升不需要任何联合训练。 GPT Image 生成一张图需要 3 分钟，其中大部分时间不是在生成像素，而是在"思考"，也就是提示词重写和规划阶段。语言模型的角色还在扩展提示词重写只是第一步。现在语言模型在视频生成中的角色已经扩展到： - 工具调用：生成图片前先联网查今天的新闻，处理后再生成 - 智能体协调：调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具，迭代生成高质量内容 - 布局规划：决定视频的结构、时间线和内容组织 Grok Imagine 已经有了一个智能体模式的早期版本，可以通过调用不同工具来生成更长的视频。 ## 音频：被低估的难题 Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。音频的难点在于它有两个截然不同的成分： - 语音部分：接近离散 token（可以理解为有限词汇表里的单词），可以用类似语言模型的方式处理 - 音乐部分：完全连续，无法离散化，现有语言模型对音乐的理解非常有限让语言模型描述音乐细节，就像让盲人描述颜色一样困难。大多数语言模型可以识别"这是哪首歌"，但无法描述音乐的节拍、音调和细节，更无法生成高质量的音乐。更大的挑战是时间对齐。文本和图像之间的对应是松散的，你可以用一段话描述整张图。但音频和视频必须在时间轴上精确对齐：哪一秒有什么声音，必须和画面严格同步。这种精确的时间感知，是现有多模态模型普遍缺失的能力。 ## 生成式 UI：扩散模型作为前端访谈中展示了两个产品案例，代表了 Ethan He 对未来交互方式的判断。 Flipbook：一个用图像生成模型实时渲染的浏览器界面。页面里的所有内容都是模型生成的，公司不存在，场景是虚构的。用户点击链接，模型就生成新的子页面。比如点击"金字塔建造技术"，模型会生成一个详细介绍杠杆技术的新页面，配有对应的生成图像。 Neural OS（神经操作系统）：用视频模型模拟一个完整的操作系统，可以运行 Doom、Firefox 等应用，所有画面都是模型实时生成的。 Ethan He 的预测是：随着推理成本下降，扩散模型会成为人机交互的前端层，语言模型和确定性代码在后端运行，用户看到的所有界面都由生成模型实时渲染。每个用户可以有完全不同的界面，邮件可以像 TikTok 一样滑动，Instagram 可以去掉你总是误触的点赞按钮。他估算了一下成本：如果每 100 个请求 1 美元，每天用 8 小时，每月大约 240 美元。现在确实贵，但推理成本每年大约下降 2 倍，他认为这个未来会到来。他还提出了一个关于人机带宽的判断：人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。所以未来最自然的人机交互方式，是用户说话，AI 用生成式画面回应，这是神经链接（Neuralink）出现之前的最高带宽交互形式。 ## 为什么离开 xAI Ethan He 的回答很直接：有些研究在公司里做不了，而且公司的优先级会快速变化。他想做的，是语言模型方向的研究，特别是模型如何自主管理自己的上下文。他的具体预测是：语言模型很快会出现真正的上下文感知能力，模型知道自己的上下文窗口用了多少，能主动决定压缩、丢弃或保留哪些内容，而不是依赖外部 harness（智能体框架，一种包裹模型的工程系统）的启发式规则。他举了一个例子：现在 Claude（Anthropic 的 AI 模型）在上下文接近上限时会自动触发压缩，但模型本身对这个过程毫不知情，还在按照原来的方式工作。理想状态是模型自己感知到"我快到上限了"，并主动调整策略。他认为视频模型在这方面的探索某种程度上比语言模型更超前，因为视频的长时程问题更紧迫，研究者被迫更早面对这个问题。他还提到一个更激进的想法：如果把智能体框架的代码直接放进模型的上下文，让模型能够修改自己的运行规则，比如决定"读长文档时我要分块处理还是只读前 200 行"，这种自我修改的智能体框架可能是一个值得探索的方向。 ## 职业轨迹：每一次转型都是主动押注 Ethan He 的职业路径本身也值得单独说一下。十年前他在做 ResNet（残差网络，一种经典的图像识别模型架构）时代的图像识别和目标检测研究，同时做模型压缩。他当时想当教授，已经有几篇顶会一作论文，自信地申请了顶校博士，结果全部被拒。被迫进入工业界，反而让他在 Facebook FAIR（Meta 的 AI 研究院，由 Yann LeCun 领导）做了自监督学习，之后到英伟达做 Cosmos 和 MoE（混合专家模型）扩展，再到 xAI 做视频多模态。他在英伟达的另一个重要工作是 Megatron MoE，这是第一个开源的、能够高效训练超大规模 MoE 模型的框架，支持从 1000 亿参数到万亿参数的训练，MFU（模型浮点利用率，衡量 GPU 利用效率的指标）达到约 40%。他的结论是：在机器学习内部切换方向，比大多数人想象的容易。训练大模型的核心原则是通用的，换个方向并不需要从零开始。很多人觉得"我做计算机视觉，就只能做计算机视觉"，但他的经验证明这个边界没有那么硬。 ## 关键判断汇总 ## 局限性和没说清楚的地方这篇访谈有几个地方值得注意：信息不对称： Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论"，比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。成本估算是粗略的：他的存储和训练成本计算是信封背面的估算，实际情况会因数据规模、训练次数、基础设施选择而有很大差异。 "语言模型是瓶颈"这个判断有边界：他承认扩散模型本身的改进仍然重要，只是说在当前阶段，语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。世界模型的定义是他个人的：他在访谈开头就声明，世界模型有很多定义，他只是分享自己的视角，不打算辩论谁对谁错。本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。 Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者，xAI Grok Imagine 视频多模态负责人。

译xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示，视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发，并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂，例如存储10亿个视频需5PB，仅AWS月费就达数百万人民币。视频模型需先预训练图像模型，再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸，而他认为扩散模型对文本的理解过于字面化，对语言意图的深层理解才是突破关键。

Elon Musk@elonmusk · 6月3日22

Trust Grok

译信任 Grok。

DogeDesigner@cb_doge · 6月3日21

Grok Imagine is pretty cool with logos. 🔥

译Grok Imagine 处理 Logo 的效果相当不错。🔥

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02｜MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你 MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。三项能力的意义在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。 Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。 MSA：把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。两个让人印象深刻的实测 CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。原生多模态：从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同，体现了原生多模态路线的价值。为什么值得关注 M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二：深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。四层分层提示词体系 Chromium 没有使用单体提示词，而是设计了四层架构：第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI——用户不可见，每次对话隐式生效。这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。 AI 使用政策：制度化的责任边界 ai_policy.md 是整个体系的底层约束，核心规则清晰： - 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号 - 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品 - 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。关键在于，Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。 ## 精讲三：为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。反直觉的核心论点通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标，而非描述过程。构建前沿视频系统的工程现实访谈中 Ethan He 分享了一些实际的工程经验，值得关注：迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。 VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。更远的视野：生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。构建视频系统的数据与基础设施挑战访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。 ## 速览工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer） Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。 RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog） Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位） MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读今日候选池中还有以下内容值得关注，按兴趣选读： - 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。 - 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径如果你只有 30 分钟，优先读这三篇：第一篇：MiniMax M3 发布文章（链接）了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。第二篇：Chromium AI Coding 体系解析（链接）即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日53

XAI 🔥: SuperGrok and X Premium+ users now can use Composer 2.5 model from Cursor via Grok Build! Grokposer 🤖

译XAI 🔥：SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型！ Grokposer 🤖

xAI@xai · 6月2日67

Composer 2.5 is now available inside Grok Build. Composer 2.5 is a fast, highly intelligent model that excels on long-running tasks and following complex instructions.

译Composer 2.5 现已在 Grok Build 中可用。 Composer 2.5 是一个快速、高度智能的模型，擅长处理长时间运行的任务和遵循复杂指令。

swyx@swyx · 6月2日71

This pod was an incredible gift to the community: not only our first pod about @xAI, but Ethan really indulged on all our questions on how to train a SOTA Videogen world model, including specific areas (consistent extending/editing, voice) that Grok @Imagine is *still* SOTA, on top of the factual overviews he ALSO came loaded with opinions/predictions: - why he's quitting Videogen for LLMs: video models get most of their intelligence from LLMs, not from scaling video data - why the next frontier for videogen also happens to be video agent models - agentic models trained to orchestrate video models - why deterministic compression (like MP4) is a useless target vs VAE compression - Videomaxxing: if you truly believe in the "Moore's law" of AI/genmedia, then video models become the final boss UI of everything, like Flipbook (below)

译前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出，视频模型的智能主要来自LLM，而非单纯扩大视频数据规模，因此正从视频生成转向LLM领域。他认为，视频生成的下一个前沿是训练用于编排视频模型的**视频Agent模型**。AI视频的发展将类似编程Agent路径，当前文本到视频仅是“自动补全”阶段。未来，世界模型将变得实时交互，语言模型或成为视频的控制层。

DogeDesigner@cb_doge · 6月1日33

"I resisted AI for too long, living in denial. Now it is game on." — Elon Musk

译"我抗拒AI太久了，一直活在否认中。现在，游戏开始了。" — Elon Musk

DogeDesigner@cb_doge · 6月1日28

One day, anyone will be able to generate an entire movie with Grok.

译有一天，任何人都能用Grok生成一整部电影。

🚨 AI News | TestingCatalog@testingcatalog · 5月31日74

Grok Imagine Video 1.5 Preview is now available on Grok APIs and has also landed in the top 1 spot on Video Arena. Have you tested it already? 👀

译Grok Imagine Video 1.5 Preview 现已上线 Grok API，并在 Video Arena 排行榜上位列第一。你已经测试过了吗？👀

DogeDesigner@cb_doge · 5月31日70

NEW: Grok Imagine Video 1.5 Preview just hit #1 in the Image-to-Video Benchmark on Video Arena. A massive +52 point jump over the previous Grok Imagine Video model, beating Seedance 2.0, HappyHorse, and Veo 3.1. xAI is moving fast. 🚀

译新消息：Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。相比之前的 Grok Imagine Video 模型，分数大幅提升了 52 分，超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀

Berryxia.AI@berryxia · 5月30日70

Grok-building-0.1 支持使用𝕏 AI的 API了。看了一下价格，输入：百万Token花费 1美金左右。输出：百万Token花费 2美金左右。

译Grok-build-0.1 现已支持使用𝕏 AI的 API了。看了一下价格，输入：百万Token花费 1美金左右。输出：百万Token花费 2美金左右。

Berryxia.AI@berryxia · 5月30日50

卧槽，真的不是一个人有这样的感觉啊！ X算法最近让很多人越老越看不懂？长文流量下滑、大V也有同感！我扒了一位博主对源码的深度分析，结合最新算法逻辑，大白话给你捋清楚。核心结论：他的分析 85%~90% 对得上，是目前最靠谱的民间解读。一条一条说，可以收藏研究下！ ① 自动翻译 = 全球抢流量！以前你的帖子主要在中文圈转。现在平台自动翻译内容推向全球，同样聊AI，你要跟全世界的帖子竞争。流量被稀释，不是你我的问题，是池子变大了，竞争自然被放大了。 ② 粉丝数大幅贬值过去：发了就有粉丝看。现在：算法从全平台 ~1500 条候选帖里挑，只看你最近的兴趣和行为。每条帖子都得靠自己"赚"读者，粉丝数不再是保底。也就是说你和全球的同行者，每个帖子都会进行质量、内容、稀缺性多维度比拼了！ ③ 算法分两步走 • 第一步「找候选」：根据兴趣从全平台捞帖子 • 第二步「排序打分」：预测你互动的概率，按分数排序推送这两步和源码几乎完全一致。 ④ 核心看 ~15 个互动信号（最重要）点赞、回复、转发、停留时长、看视频/图片、点链接，以及负面信号（不感兴趣、屏蔽、举报）。有加有减，汇总算总分。他列的和实际基本吻合。 ⑤ 最关键的一点：算法不管内容好不好打分时不看"这人是不是专家"、"内容靠不靠谱"、"作者资历如何"。只关心：这条帖子能不能让你产生互动。安全过滤器管有害内容，但不管真假和专业度。这也解释了为什么质量一般的帖子有时候反而爆。 ⑥ 几个补充机制他也说对了： • 系统记住你看过的帖子，避免重复推 • 同一作者发太密，后面的权重会被压 • 转发不再是直接广播给粉丝的放大器，也要走完整打分流程总结：长文流量下滑不是算法"封杀"长文，是多重机制叠加，全球竞争、粉丝通道弱化、早期互动门槛提高。一句话：X算法只管"你会不会互动"，不管"内容好不好、作者厉不厉害"。想被看到？开头就抓住人，让人停下来、点赞、回复。靠粉丝基数硬推的时代过去了。

译X平台近期算法更新导致众多用户（包括大V）帖子触达量显著下降。核心原因在于平台推出自动翻译功能，使内容竞争从单一语言圈扩大至全球范围，竞争池倍增。同时，粉丝数的流量分配作用被大幅削弱，每条帖子都需通过预测互动率单独争取读者。算法分两步工作：先从全平台约1500个候选帖中检索，再由基于Grok的模型通过预测约15种用户互动行为（如喜欢、回复、停留、屏蔽等）的概率来排序打分。最关键的逻辑是，算法打分完全基于预测的互动可能性，不考量内容质量、作者专业性或资历。因此，长文流量下滑是多重机制叠加的结果。

Elon Musk@elonmusk · 5月30日40

Grok Build is moving fast

译xAI 持续更新其智能体编码工具 Grok Build，最新版本为 v0.2.11。本次更新重点包括：集成了 𝕏 搜索和更快的网页搜索；新增了 `/export`、`/login` 等多个命令。平台支持扩展至 Windows ARM64 和 macOS x86_64。在智能体方面，子智能体现在可以共享终端后端与调度器，并增加了主动系统提醒。用户体验上，终端视频播放提升至 30fps，优化了链接交互与计划模式。稳定性方面，默认重试预算增加，并修复了多项渲染问题。该工具正从早期 CLI 快速发展为严肃的智能体编码环境。

SemiAnalysis@SemiAnalysis_ · 5月30日76

BREAKING NEWS: JAX NVIDIA GPU & XLA: GPU's biggest customer just announced that they have dropped JAX GPUs and would rather vibe code an C training framework with Grok Build. Reportedly xAI's JAX stack had MFU lower than 10%. NVIDIA JAX team entire main 996 focus for the past 2 years was to support xAI yet has failed, I guess they can rest & vest now.

译突发新闻：JAX NVIDIA GPU & XLA：GPU最大客户刚刚宣布已放弃JAX GPU，宁愿用Grok Build“氛围编程”一个C训练框架。据报道xAI的JAX堆栈MFU低于10%。NVIDIA JAX团队过去两年全部主力996专注于支持xAI却失败了，我想他们现在可以休息并兑现期权了。

🚨 AI News | TestingCatalog@testingcatalog · 5月30日78

xAI released grok-build-0.1, the model powering Grok Build CLI, on the API console in public beta. > $1/m input and > $2/m output

译xAI在API控制台公开发布了grok-build-0.1模型，该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1，输出价格为每百万token $2。

xAI@xai · 5月30日73

grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI and excels at agentic coding. Priced at $1/m input and $2/m output, it’s extremely cost effective, intelligent, and fast.

译grok-build-0.1 现已通过 xAI API 提供公开测试版。这是驱动 Grok Build CLI 的同一模型，擅长智能体编码。定价为输入 $1/m，输出 $2/m，极具成本效益、智能且快速。

meng shao@shao__meng · 5月29日61

Grok Build 0.1 在 Cursor 中已经可用了！

向阳乔木@vista8 · 5月29日49

如果你订阅了 X Premium +，现在可安装Grok Build的Cli curl -fsSL https://x.ai/cli/install.sh | bash 能在CLI中生成图片，但好像调用video_gen接口不行，但好像官方说可以生成视频，实际测试发现不行。原以为能直接读 X上的帖子，发现也不行，哎。编程打不过Codex和CC，得找别的亮点啊，着急！

译X Premium+订阅用户现已可以安装Grok Build CLI。实际测试显示，该工具能成功生成图片，但调用 `video_gen` 接口生成视频的功能目前不可用，尽管官方有相关表述。此外，直接读取X平台帖子的功能也尚未实现。在编程能力上，该工具被认为不及Codex与Claude Code。

Elon Musk@elonmusk · 5月29日19

Check out the daily Grok Build version updates at https://x.ai/build/changelog

译查看每日 Grok Build 版本更新，请访问 https://x.ai/build/changelog

xAI@xai · 5月29日62

Grok Build 0.2.7 is now out, with /usage, /login, shared terminals across subagents, and improved image understanding See all updates at https://x.ai/build/changelog

译Grok Build 0.2.7 现已发布，包含 /usage、/login、跨子智能体共享终端，以及改进的图像理解功能。所有更新请查看 https://x.ai/build/changelog

Artificial Analysis@ArtificialAnlys · 5月29日64

grok-imagine-image-quality lands at #5 on both the Artificial Analysis Text to Image and Image Editing leaderboards, the leading model outside of OpenAI and Google and at a much lower price! grok-imagine-image-quality is @xAI's latest image model and a higher quality variant of grok-imagine-image. It sits behind only OpenAI's GPT Image and Google's Nano Banana across both Text to Image and Image Editing. The model supports 2K outputs at $70/1k images and 1K outputs at $50/1k images, with editing supporting up to 3 reference images. At $50/1k images for the 1K resolution tested, grok-imagine-image-quality is cheaper than GPT Image 2 at $211/1k images and Nano Banana Pro at $134/1k images, though priced at a premium compared to the standard grok-imagine-image model at $20/1k images. grok-imagine-image-quality is available via xAI's native API, the Grok chat app, and third party APIs. Congratulations to @xAI and @elonmusk on the launch! See below for comparisons between grok-imagine-image-quality and other leading models in the Artificial Analysis Image Arena 🧵

译xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五，是除OpenAI与Google外排名最高的模型。它支持2K（$70/1k images）和1K（$50/1k images）两种输出分辨率，编辑功能最多支持3张参考图。其定价显著低于主要竞品：GPT Image 2为$211/1k images，Nano Banana Pro为$134/1k images，但高于xAI自身的标准版模型grok-imagine-image（$20/1k images）。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

Rohan Paul@rohanpaul_ai · 5月28日65

Elon Musk just told investors that SpaceX’s Anthropic AI compute deal is not a locked multi-year rental, but a 180-day lease for Colossus with a 90-day cancellation path. The older reading made the deal look like $1.25B/month through May-29, but Musk says SpaceX wanted the short term because AI compute may become too scarce to rent away for years. SpaceX wants flexibility because Colossus is not just a side asset, since the same compute infra trains xAI models, support internal AI systems, or become a paid cloud-style business. --- reuters .com/technology/musk-says-spacex-did-not-commit-long-term-colossus-lease-with-anthropic-2026-05-28/

译Elon Musk向投资者澄清，SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁，而是一份为期180天的租约，并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月，但Musk解释称，SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺，不宜长期外租。他强调，Colossus并非闲置资产，同一套计算基础设施将用于训练xAI模型、支持内部AI系统，或可能在未来发展为付费云服务，因此SpaceX需要保持运营灵活性。

AYi@AYi_AInotes · 5月28日75

http://x.com/i/article/2059309620326211584 # 踩了 3 个坑才把 xAI 新出的 Grok Build CLI 跑通， 0 基础 8 步保姆教程在这！超级详细，从 0 开始，一步一步来，不会的地方我都标出来了！ 1. 先确认你有没有权限（很重要！） Grok Build 目前是 Beta 版，只有以下用户能用： - SuperGrok 订阅者 - X Premium+ 订阅者如果你还没有： - 去 grok.com/supergrok 升级（有 SuperGrok 就能用了）。你的 X 用户名是 @AYi_AInotes，如果你是 Premium+ 用户，直接继续下一步。 2. 安装 Grok Build（1 分钟搞定）打开你的终端（Terminal / 命令提示符）： macOS / Linux 用户（推荐）：复制下面这整行命令，按回车执行： curl -fsSL https://x.ai/cli/install.sh | bash Windows 用户：复制下面这行执行： irm https://x.ai/cli/install.ps1 | iex 安装完后，终端里会提示成功。 3. 第一次使用（登录） 1. 随便找一个你想写代码的文件夹（比如新建一个空文件夹练习）： 1. 输入命令启动 Grok Build：第一次会自动打开浏览器让你登录用你的 X 账号登录（就是登录 Grok 的那个账号）就行了。登录成功后，终端里就会出现 Grok 的交互界面（TUI，全屏漂亮界面）。 4. 最简单的上手玩法（保姆式）启动后（输入 grok 后），你直接在下面输入文字聊天就行。新手推荐的第一个提示词（直接复制粘贴试试）： Grok 会一步步引导你： - 它会思考（显示 Thought for xx s） - 计划（Plan mode） - 编辑文件 - 运行代码你只需要： - 看懂它在干什么 - 按 Enter 确认 - 或者输入文字回复它的问题 5. 核心功能（零基础也要知道的）实用小命令（在 Grok 界面里直接输入）： - /help —— 查看所有命令 - /plan —— 开启计划模式（最安全） - /model —— 切换模型 - /feedback —— 给 xAI 团队提建议（他们每天都在更新） 6. 练习小任务（推荐顺序） 1.最简单：让它解释当前文件夹 2.创建文件： 3.运行代码： 4.复杂一点： 7. 常见问题解决 Q：安装失败 / 命令打不开？ - 确保你是用管理员权限打开的终端 - macOS/Linux 试试加 sudo（不推荐，但可以） - 重启终端再试 Q：登录不上？确认你是 SuperGrok 或 Premium+ 用户 Q：界面太花里胡哨看不懂？输入 /simple 或慢慢看，它会一步一步解释 Q：想退出当前会话？输入 /quit 8. 进阶提示（以后再看） - 在项目根目录放一个 AGENTS.md 文件，可以写你的开发规范，Grok 会自动遵守。 - 支持 Git：它可以自动 commit、push。 - 支持很多语言（Python、JS、Rust、Go… 都行）。现在就行动起来！ 1. 打开终端 1. 粘贴安装命令 1. cd 到一个空文件夹 1. 输入 grok 1. 复制我上面第一个提示词发给它有啥问题评论区留言交流！

译本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版，需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程，以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互，使用`/plan`进入计划模式、`/model`切换模型，并支持自动文件编辑、代码运行以及Git操作。项目根目录的`AGENTS.md`文件可用于自定义开发规范。

SemiAnalysis@SemiAnalysis_ · 5月28日15

Hi @elonmusk, instead of painting Colossus 2 with the words "MACROHARDER", can you repaint it with something more funny like "67" or "SAM ALTMAN IS FINISHED". How many likes should this tweet get to make "67" painted on Colossus 2 roof happen?

译嗨 @elonmusk，与其在 Colossus 2 上涂写“MACROHARDER”，不如涂点更有趣的，比如“67”或“SAM ALTMAN IS FINISHED”。这条推文需要多少赞才能让“67”出现在 Colossus 2 的屋顶上？