Watch M3 reach the frontier 🚀

译MiniMax发布M3模型，宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出：SWE-Bench Pro得分59.0%，Terminal Bench 2.1得分66.0%，SWE-fficiency 34.8%，KernelBench Hard 28.8%，MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务，模型权重和技术报告预计约10天后发布。

StepFun@StepFun_ai · 6月2日74

We probably don’t talk enough about “usable.”

译我们可能对“可用性”的讨论还不够。当Flash模型同时将速度、成本和智能带入“可用”范围时，智能的供给方式发生了结构性变化。

SenseTime@SenseTime_AI · 6月2日73

Thanks for using our model to create these complex charts and diagrams. It's great to see challenging information transformed into clear, accurate, and readable visuals. That's what we aim for. 😄

译感谢使用我们的模型来创建这些复杂的图表和图表。看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

SenseTime@SenseTime_AI · 6月2日71

Turning complex information into accurate charts and diagrams. That's 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. Learn more: https://x.com/SenseTime_AI/status/2061465029959209106?s=20

译将复杂信息转化为准确的图表和示意图。这就是 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰。了解更多：https://x.com/SenseTime_AI/status/2061465029959209106?s=20

StepFun@StepFun_ai · 6月2日69

This is exactly the philosophy: don't bolt on efficiency, design for it from day one. MFA + AFD aren't tricks. They're what lets Step 3.7 Flash serve at a fraction of the KV-cache cost. Huge thanks to @FireworksAI_HQ for making Step 3.7 Flash one-click to run. Go build something agentic with it.

译阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构，从设计之初就专注于推理效率。其采用多矩阵分解注意力机制，使KV-cache成本仅为DeepSeek模型的约22%；同时通过注意力与FFN解耦技术，实现了硬件优化的高效服务。该模型已通过Fireworks AI提供，采用Apache 2.0许可，并可用于构建智能体应用。

MiniMax (official)@MiniMax_AI · 6月2日78

Watch open source reach the frontier. 🚀

译MiniMax宣布推出首个开源权重模型M3。该模型结合了三大前沿能力：在编程与智能体方面，它在SWE-Bench Pro等评测上取得了具体分数；通过MiniMax Sparse Attention技术，其上下文窗口可扩展至1M tokens；并且模型从零开始原生支持多模态。模型的权重与技术报告将在约10天后发布。

Alibaba Cloud@alibaba_cloud · 6月2日82

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://int.alibabacloud.com/m/1000413837/ API：https://int.alibabacloud.com/m/1000413829/

译阿里云推出Qwen3.7-Plus，这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手，支持全模态输入，能够跨GUI与CLI执行任务。该模型具备视觉智能体能力，涵盖感知、推理、定位及搜索增强问答，并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

MiniMax (official)@MiniMax_AI · 6月2日74

🚀 M3 is live on Vercel's AI Gateway! Our first long-context model with 1M tokens, multimodal input. AND 50% off for the week 🎉 Love to see what everyone builds with M3 and @vercel_dev ✨

译🚀 M3 已在 Vercel 的 AI Gateway 上线！我们首个支持 1M token 长上下文和多模态输入的模型。本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02｜MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你 MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。三项能力的意义在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。 Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。 MSA：把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。两个让人印象深刻的实测 CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。原生多模态：从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同，体现了原生多模态路线的价值。为什么值得关注 M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二：深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。四层分层提示词体系 Chromium 没有使用单体提示词，而是设计了四层架构：第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI——用户不可见，每次对话隐式生效。这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。 AI 使用政策：制度化的责任边界 ai_policy.md 是整个体系的底层约束，核心规则清晰： - 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号 - 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品 - 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。关键在于，Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。 ## 精讲三：为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。反直觉的核心论点通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标，而非描述过程。构建前沿视频系统的工程现实访谈中 Ethan He 分享了一些实际的工程经验，值得关注：迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。 VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。更远的视野：生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。构建视频系统的数据与基础设施挑战访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。 ## 速览工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer） Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。 RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog） Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位） MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读今日候选池中还有以下内容值得关注，按兴趣选读： - 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。 - 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径如果你只有 30 分钟，优先读这三篇：第一篇：MiniMax M3 发布文章（链接）了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。第二篇：Chromium AI Coding 体系解析（链接）即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

ginobefun@hongming731 · 6月2日71

#BestBlogs 早报 06-02 MiniMax 发布了国内首个集前沿 Coding、1M 超长上下文、原生多模态于一体的开源模型 M3，24 小时自主完成 145 次 CUDA 算子迭代，把抽象的 benchmark 变成了可验证的工程实力。与此同时，xAI 前负责人给出一个反直觉判断：视频模型的上限跟着 LLM 走，下一个 Sora 是视频 Agent 而非更好的视频模型。今日 BestBlogs 早报，还有 Chromium 3500 万行代码库的 AI Coding 规范体系、语音智能体生产工程实践、「RAG 不是机器学习」等 10 篇精选，欢迎阅读。

译MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时，xAI前负责人指出，视频模型的上限将由LLM决定，下一个类似Sora的产品应是视频Agent，而非单纯的视频生成模型。

Alibaba Cloud@alibaba_cloud · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

MiniMax (official)@MiniMax_AI · 6月2日81

M3 on Cloudflare AI Gateway, day one ⚡ Frontier coding, 1M context, and native multimodal and now just one fetch away. It is time to build something. 🦞

译M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力，1M 上下文，原生多模态，现在一次 fetch 即可调用。是时候构建些东西了。 🦞

Chubby♨️@kimmonismus · 6月2日79

Qwen3.7 plus released. Looks good, but why do they compare their models to GPT-5.4 and Opus 4.6? Anyways, multimodal as well

译阿里云通义千问（Qwen3.7-Plus）正式发布。这是一个统一视觉与语言的多模态智能体基础模型，其核心功能包括：支持GUI与CLI操作的交互式混合智能体、全能编码助手与生产力工具、具备感知、推理、定位及搜索增强能力的视觉智能体，并可跨主流智能体框架泛化。该模型现已通过阿里云模型工作室提供API。发布推文中提到的与GPT-5.4及Opus 4.6的比较，在用户侧引发了对其对标产品的讨论。

MiniMax (official)@MiniMax_AI · 6月2日55

napkin sketch → playable game for $0.028 😳 this is the kind of thing M3 was built for @atomic_chat_hq

译草图 → 可玩游戏，仅花 $0.028 😳 这正是 M3 的设计初衷 @atomic_chat_hq

xAI@xai · 6月2日67

Composer 2.5 is now available inside Grok Build. Composer 2.5 is a fast, highly intelligent model that excels on long-running tasks and following complex instructions.

译Composer 2.5 现已在 Grok Build 中可用。 Composer 2.5 是一个快速、高度智能的模型，擅长处理长时间运行的任务和遵循复杂指令。

MiniMax (official)@MiniMax_AI · 6月2日69

messy, multimodal, too large for a normal chat? M3 handles it 🫡 @happycapyai

译MiniMax M3现已在Happycapy上线，主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入，包括PDF、视频、图像、截图及长文档，并在编程和智能体任务（如仓库级调试、问题追踪）上表现较强。此外，M3采用开源权重，价格约为Sonnet的三分之一。

Qwen@Alibaba_Qwen · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译通义千问推出 Qwen3.7-Plus，这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作，可作为多功能编码智能体与生产力助手，并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。

MiniMax (official)@MiniMax_AI · 6月2日54

26% improvement on BU Bench 👀 more to come

译BU Bench上提升26% 👀 还有更多

MiniMax (official)@MiniMax_AI · 6月2日78

this is what model-and-agent alignment looks like 🤝 @SimularAI

译这就是模型与智能体对齐的样子 🤝 @SimularAI

MiniMax (official)@MiniMax_AI · 6月2日76

day 0 launch partner energy 🔥 @Qubrid_AI is offering 50% off for early adopters. go run it!

译MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能，并支持长期智能体工作流，被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴，为早期用户提供50%的折扣。

Artificial Analysis@ArtificialAnlys · 6月2日77

NVIDIA's Cosmos 3 lands at #1 among open weights models in both Text to Image and Image to Video on the Artificial Analysis Leaderboards! Cosmos 3 is a family of omnimodal world models for Physical AI from @nvidia, unifying language, image, video, audio and action in a single Mixture-of-Transformers architecture that pairs an autoregressive reasoner with a diffusion generator. The family comes in four variants: base Nano (16B: 8B reasoner tower + 8B generator tower) and Super (64B: 32B reasoner tower + 32B generator tower) models, with the Super model also having Text2Image and Image2Video fine-tuned variants, which are the versions listed in the Artificial Analysis Arena Leaderboards. Cosmos3-Super-Text2Image (agentic) runs through an agentic prompt-upsampling harness, and takes the #1 open weights spot in Text to Image, surpassing HiDream-O1-Image-Dev-2604, Alibaba's Qwen Image Max 2512 and Black Forest Labs' FLUX.2 [dev]. Cosmos3-Super-Image2Video takes #1 open weights in Image to Video (No Audio), ahead of Lightricks' LTX-2, and Alibaba's Wan 2.2 A14B. Cosmos 3 generators take structured JSON prompts rather than plain text, so prompt upsampling is needed to reproduce these results. This upsampling can be handled by an external harness or by the model's own reasoner branch, so it can also run self-contained. Cosmos 3 is fully open under the OpenMDW 1.1 license, shipping with weights, code, curated datasets and fine-tuning recipes available on @huggingface. First-party and third-party APIs are expected over the next few weeks, with pricing to follow. See the thread below for example generations and a link to try Cosmos 3 in our arena 🧵

译NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中，同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构，结合自回归推理器与扩散生成器，提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中，Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问（Qwen）Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相（Wan）2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词，可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源，采用 OpenMDW 1.1 许可，提供权重、代码、精选数据集和微调方案。

Chubby♨️@kimmonismus · 6月2日82

MiniMax just dropped M3! It hits 59% on SWE-Bench Pro, edging out GPT-5.5 (58.6%) and beating Gemini 3.1 Pro (54.2%). Trails Opus 4.7 on coding, but leads it on autonomous browsing at 83.5% on BrowseComp. First open model to pack frontier coding, a 1M-token context, and native multimodality into one system. I mean, let that sink in: Roughly 12x cheaper per token than GPT-5.5, with weights and a full tech report promised in about 10 days.

译MiniMax发布开源模型M3，它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%，略高于GPT-5.5（58.6%）与Gemini 3.1 Pro（54.2%）；在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外，模型在Terminal Bench 2.1（66.0%）、MCP Atlas（74.2%）等基准上表现优异。其每token成本约为GPT-5.5的十二分之一，模型权重及技术报告预计在10天后发布。

Rohan Paul@rohanpaul_ai · 6月2日74

Nemotron 3 Ultra will be available from Nvidia in few days. Hybrid SSM (state-space models) + mixture-of-experts architecture. The SSM part is built for long sequences, so the model can keep reasoning or using tools for longer without getting crushed by the usual attention cost. Jensen Huang at NVIDIA GTC Taipei 2026 ---- From 'NVIDIA' YT channel (link in comment)

译Nemotron 3 Ultra将在几天内由Nvidia发布。采用混合SSM（状态空间模型）+ 混合专家架构。 SSM部分专为长序列设计，因此模型可以更长时间地持续推理或使用工具，而不会被通常的注意力成本压垮。黄仁勋在NVIDIA GTC台北2026上表示。 ---- 来自'NVIDIA' YouTube频道（链接在评论中）

🚨 AI News | TestingCatalog@testingcatalog · 6月1日58

MiniMax M3 is now live inside Atomic Chat 👀 Atomic tested M3 on a task to read a hand-drawn napkin sketch, write the game logic, build the UI, and ship a playable HTML platformer in one pass. All this for $0.028 🤖

译MiniMax M3模型现已集成至Atomic Chat。在一项测试中，Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图，并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示，该任务消耗输入6,920模型token，生成输出9,933模型token，总成本仅为$0.028。此外，MiniMax计划于下周在HuggingFace发布M3模型。

SenseTime@SenseTime_AI · 6月1日67

𝗚𝗲𝘁𝘁𝗶𝗻𝗴 𝗰𝗵𝗮𝗿𝘁𝘀 𝗮𝗻𝗱 𝗱𝗶𝗮𝗴𝗿𝗮𝗺𝘀 𝗿𝗶𝗴𝗵𝘁 𝘄𝗶𝘁𝗵 #𝗔𝗜 📊 Most AI models still struggle with these data visuals — negatives shown as positives, bar positions off, element relationships scrambled. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 breaks through that barrier. Generate accurate visuals, then tweak the design and layout on the fly. See the difference and try it yourself: See the difference and try it yourself: 🤗 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️ Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub@github @huggingface @github

译大多数AI模型在生成图表时存在数值错误（如负值显示为正）、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic（SenseNova-U1）专为解决此类图表生成问题而设计，能够生成准确的图表，并支持实时调整设计和布局。项目在Hugging Face提供了模型，并在GitHub展示了效果案例。

Chubby♨️@kimmonismus · 6月1日83

1/ NVIDIA just open-sourced Cosmos 3 at GTC Taipei! It's the first fully open "omnimodel" for physical AI - one model that understands the real world, predicts what happens next, and generates the actions a robot should take. Weights, code, datasets. All open. And this is really big. Lets dig into everything: 🧵

译NVIDIA在GTC Taipei上宣布完全开源Cosmos 3。这是首个针对物理AI的“全能模型”，具备原生视觉推理能力，可理解真实世界、预测未来并生成机器人应采取的行动。本次发布包含两个变体：Super（32B）和Nano（8B）。模型权重、代码及数据集均已完全开放。

SiliconFlow@SiliconFlowAI · 6月1日79

Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 🎉 Limited-time 50% off for 7 days Cache / Input / Output: $0.06 / $0.30 / $1.20 per 1M tokens (Regular: $0.12 / $0.60 / $2.40) M3 is the first open-source model combining all three frontier capabilities: → Coding & Agentic: beats GPT-5.5 and Gemini 3.1 Pro on SWE-Bench Pro → 1M context via MiniMax Sparse Attention → Native multimodal from step zero — image, video & computer use Try it on SiliconFlow ⬇️

译MiniMax M3 现已在 SiliconFlow 平台上线，并提供限时7天的50%折扣。定价为：缓存 $0.06、输入 $0.30、输出 $1.20（每百万 token）。M3 是首个同时具备三大前沿能力的开源模型：一是编码与智能体能力，在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro；二是支持 100万 token 上下文窗口（通过 MiniMax Sparse Attention 技术实现）；三是具备原生多模态能力，支持图像、视频与计算机操作。

MiniMax (official)@MiniMax_AI · 6月1日73

1. Video control + gaming + M3 2. Open weights + massive context ++ strong coding 3. Canceling my weekend plans now

译1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 [引用 @MinLiBuilds]：跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了，三个亮点： 1M context、原生多模态、Agentic。我这次做了一次完整评测，使用CC workflow 、 @ZenMuxAI和MiniMax M3：给一张截图，做一个“凡人修仙剑阵对决手势游戏”。要求是：支持双人对决、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后，游戏真的跑起来了。这一代LLM的版本答案我知道了： 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础，多 agent 负责拆任务和执行。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日55

NVIDIA announced an upcoming release of Nemotron 3 Ultra later this week, a 550B-parameter open-weight model. According to Artificial Analysis, it is positioned as the most intelligent open-weight model from the US lab. Soon 👀

译NVIDIA宣布将于本周晚些时候发布Nemotron 3 Ultra，这是一个550B参数的开放权重模型。根据Artificial Analysis，它被定位为美国实验室最智能的开放权重模型。 Soon 👀

karminski-牙医@karminski3 · 6月1日79

球球你们休息一下，真的测不过来了🥲

译MiniMax 发布新模型 MiniMax M3，声称是首个同时整合三项前沿能力的开源权重模型。这三项能力为：编码与智能体前沿能力，在 SWE-Bench Pro 等基准测试中取得具体分数；MiniMax 稀疏注意力机制将上下文长度扩展至 1M；以及原生多模态能力。模型权重与技术报告预计在约 10 天后发布。

MiniMax (official)@MiniMax_AI · 6月1日64

It truly is 😎 #M3

译确实如此 😎 #M3

MiniMax (official)@MiniMax_AI · 6月1日77

M3 live on @novita_labs 🔥 it's time to build (50% off the first week 👀)

译MiniMax M3 模型现已在 Novita AI 平台上线，并提供首周半价优惠。作为首个开源权重模型，它集成了前沿编码与智能体能力，在 SWE-Bench Pro 上得分 59.0%，Terminal Bench 2.1 上得分 66.0%，MCP Atlas 上得分 74.2%。该模型上下文窗口最高可达 1M tokens，由 MiniMax Sparse Attention 技术支持，并从一开始即支持原生多模态，可处理文本与视觉理解任务。Novita AI 作为其 Day-0 API 发布合作伙伴，为开发者提供接入服务。

Berryxia.AI@berryxia · 6月1日71

刚刚在Hugging Face刷新模型时，看到KwaiKeye放出了Keye VL 2.0-30B-A3B。这个多模态模型总参数30B，活跃参数只有3B，Apache 2.0完全开源。它直接用DeepSeek Sparse Attention实现了256K上下文。最有意思的是视频理解部分的表现。你喂给它的帧数越多，模型准确率反而稳步上升。这和我们以前觉得长视频容易让模型迷失的直觉完全相反。它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。以前大家总觉得多模态模型要么上下文够长，要么理解够深，二者很难兼得。现在KwaiKeye把稀疏注意力真正落地，把这两件事同时推到一个新水平。实际效果如何，后面看看真实case册书。

译KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

歸藏(guizang.ai)@op7418 · 6月1日76

MiniMax 这次终于发布了他们的大版本号模型升级 MiniMax M3。主要是三个核心能力： 1. 标配了 1M 的超长上下文 2. 采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构 3. 从训练起就融合了原生多模态能力，包括强化了文本、图片、视频和桌面操作这些多模态的训练。 MSA 超上下文在算力和速度上更可落地，在 100 万上下文下每 token 计算量只有上一代的约 1/20。。所以他们这一次的价格也比较给力，Token Plan 更新了新的价格。在 API 上，小于512k 的 API 现在有为期 7 天的限时五折。

译MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文，采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中，其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外，其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。

MiniMax (official)@MiniMax_AI · 6月1日74

This is hype 🔥 M3 live on @OrcaRouter on day one go run it (50% off the first week 👀)

译这很火🔥 M3 首日上线 @OrcaRouter 快去跑起来（首周五折👀）

🚨 AI News | TestingCatalog@testingcatalog · 6月1日80

MINIMAX 🔥: A new open-weights model, MiniMax M3, has been released to the public on APIs and MiniMax Agent. MiniMax M3 scores 59% on SWE Bench Pro (on par with GPT-5.5), supports a 1M context window via MiniMax Sparse Attention, and is natively multimodal. MiniMax Agent Updates 👀 > Meet M3: Our most intelligent and responsive model designed to handle any task. > Persistent Memory: Your Agent remembers what you've shared, so you never have to repeat yourself. > Evolving Skills: It learns as you collaborate, turning complex tasks into skills made just for you. > Unified Billing: Fully integrated with Token Plan for a smoother, more consistent experience.

译MiniMax发布了新开源权重模型M3，现已通过API和MiniMax Agent提供服务。该模型在SWE-Bench Pro上得分59.0%，在Terminal Bench 2.1上得分66.0%，并支持高达1M的上下文窗口。同时，MiniMax Agent更新了持久记忆与进化技能等能力。此外，MiniMax Code也已发布，模型权重与技术报告将在约10天后公开。

Artificial Analysis@ArtificialAnlys · 6月1日81

NVIDIA just announced the release of Nemotron 3 Ultra in Jensen Huang's Computex keynote: at 550B parameters (55B active), this is the largest Nemotron 3 model to date, and it is the most intelligent US open weights model We partnered with @nvidia to evaluate this model for intelligence and speed - these figures use the model’s BF16 weights, but as with Nemotron 3 Super the model will be made available in NVFP4 quantization as well for higher inference performance. ➤ New leader for US open weights intelligence: Nemotron 3 Ultra scores 48 on the Artificial Analysis Intelligence Index. This is well ahead of the next strongest US open weights models, Gemma 4 31B (39), Nemotron 3 Super (36) and gpt-oss-120b (33), but behind the Chinese-led open weights frontier (Kimi K2.6 at 54). ➤ Leading speed for its intelligence: on a pre-release @DeepInfra endpoint, Nemotron 3 Ultra served over 300 tokens per second. Peer models in its size class from China-based labs such as DeepSeek and Moonshot (Kimi) are generally served at speeds of 50-100 tokens per second in the market today. gpt-oss-120b is served at speeds similar to this level, but with significantly lower intelligence. ➤ Largest Nemotron 3 model so far: at approximately 550 billion total parameters and 90% sparsity, Nemotron 3 Ultra is significantly larger than its siblings and is the largest recent US open weights model release We’ll be sharing additional analysis and full benchmarks at release.

译NVIDIA在Computex上发布了Nemotron 3 Ultra，总参数达550B（激活参数55B），是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强，在Artificial Analysis Intelligence Index评测中得分为48，超越了Gemma 4 31B（39分），但仍落后于月之暗面（Kimi）的K2.6（54分）。在推理速度方面，其在预发布端点上超过了300 tokens/s，远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

MiniMax (official)@MiniMax_AI · 6月1日69

@CreaoAI moving fast 🔥 M3's live on day one, go try it

译@CreaoAI 行动迅速 🔥 M3在第一天就上线了，快去试试 [引用 @CreaoAI]：MiniMax M3现已在CREAO上线。采用稀疏注意力推理，在长上下文下解码速度最高提升15.6倍，专为需要处理海量代码库、文档和转录文本而不减速的智能体打造。从模型下拉菜单中选择M3即可运行。⚡

MiniMax (official)@MiniMax_AI · 6月1日72

@cline put it well 🔥 sparse attention cutting compute to 1/20th the previous gen. Try it for free on Cline right now

译@cline 说得好 🔥 稀疏注意力将计算量降至前代的1/20。现在可以在 Cline 上免费试用。

MiniMax (official)@MiniMax_AI · 6月1日78

let's gooo 🔥 M3 + @visionagents_ai for real-time voice & video go build something hype!

译出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频去构建些令人兴奋的东西吧！ [引用 @visionagents_ai]：祝贺 @MiniMax_AI 团队发布 M3！ 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态（图像与视频）