# BestBlogs 早报：MiniMax M3 开源模型发布，集成前沿能力

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-02 06:59
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmpvv8url01y5sluk3sm95wfa
- 原文链接：https://x.com/hongming731/status/2061583445944566156

## AI 摘要

本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

## 正文

http://x.com/i/article/2061582822029283328

# BestBlogs 早报 · 06-02|MiniMax M3、AI Coding 规范、视频 Agent

在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02

## 导语

AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断--视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。

速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。

## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。

三项能力的意义

在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。

Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。

MSA：把长上下文真正变成可 Scale 的维度

1M 上下文并非只是参数设置--它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。

两个让人印象深刻的实测

CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交--在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。

让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化--没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。

原生多模态：从 Step 0 开始的混合训练

M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现--三项能力协同，体现了原生多模态路线的价值。

为什么值得关注

M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源--这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。

延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。

## 精讲二：深入解析 Chromium 的 AI Coding 开发体系

Chromium 的 AI Coding 开发体系 这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。

为什么 Chromium 的经验值得认真对待

3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具--这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。

四层分层提示词体系

Chromium 没有使用单体提示词，而是设计了四层架构：

第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。

开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI--用户不可见，每次对话隐式生效。

这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。

18+ 个可复用技能系统

skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。

技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具--任何开发者都可以用 /cr：review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。

三层 Agentic 工作流编排

projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。

AI 使用政策：制度化的责任边界

ai_policy.md 是整个体系的底层约束，核心规则清晰：

- 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号

- 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品

- 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复

这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。

eval 评估体系与 knowledge base

除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的--修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。

对工程团队的实践启示

Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。

关键在于，Chromium 的每一层设计背后都有明确的「为什么」--不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。

## 精讲三：为什么视频智能体模型是下一个前沿--Ethan He，xAI Grok Imagine 负责人

这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。

反直觉的核心论点

通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反--视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。

这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。

从单次输出到视频 Agent

Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径--下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。

Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别--用户在描述目标，而非描述过程。

构建前沿视频系统的工程现实

访谈中 Ethan He 分享了一些实际的工程经验，值得关注：

迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。

视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。

VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。

音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度--轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。

更远的视野：生成式 UI 与世界模型

Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS--当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。

世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。

构建视频系统的数据与基础设施挑战

访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本--与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。

与今天其他文章的关联

Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应--一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断--当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。

## 速览

工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer）

Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算--人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）

来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验--AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。

黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）

英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。

RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）

一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动--最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。

Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog）

Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。

AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）

吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。

从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位）

MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。

## 补充阅读

今日候选池中还有以下内容值得关注，按兴趣选读：

- 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。

- 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向--从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。

- 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。

- 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。

- 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。

- 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。

## 今日阅读路径

如果你只有 30 分钟，优先读这三篇：

第一篇：MiniMax M3 发布文章（链接） 了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。

第二篇：Chromium AI Coding 体系解析（链接） 即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。

第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。

如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。