SpaceXAI keeps raising the bar. 🔥 Grok Imagine Video 1.5 preview is now live on the API, and the results look insanely cinematic. 📽️ Go try it yourself. 💻 Godspeed SpaceXAI. 🚀

译SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API，效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀

fofr@fofrAI · 6月4日69

Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

译Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

Chubby♨️@kimmonismus · 6月4日71

Gemma 4 12B shipped today under the label "encoder-free." A local 12b model that shows really good results. I'm a big fan of Gemma Gemma 4 12B is out: a dense, fully open model (Apache 2.0) that runs on a 16GB laptop and does agentic reasoning, vision and audio at a quality Google puts near its 26B model. The reason a 12B can pull this off: Google removed the separate vision and audio encoders and feeds both straight into the model, which keeps the memory footprint small enough for consumer GPUs. For on-device assistants and private coding agents, that lowers the bar a lot. always look forward to the updates. 12b is a good sweet spot in terms of size. a few facts: Vision: the 550M encoder (27 transformer layers) is now a 35M embedder, one matmul on 48x48 pixel patches. Roughly 15x smaller. Audio: the 300M encoder (12 conformer layers) is gone. Raw 16kHz audio cut into 40ms frames, projected straight into the LLM. So encoding didn't vanish, it collapsed into the backbone. The payoff is real: one shared set of weights, so you LoRA-tune vision, audio and text in a single pass.

译Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

AYi@AYi_AInotes · 6月4日65

150M 的活，35M 干了， Google 新出的 Gemma 4 12B，把多模态里那个最重的零件，视觉编码器，从 150M-550M 直接压到 35M了，过去做多模态，套路是固定的，图片先扔给一个专门的视觉编码器翻译成模型能懂的语言，再交给大模型理解，就像配了个翻译官。这个翻译官，传统 ViT 编码器要 150M 到 550M 参数。 Gemma 4 12B 直接把翻译官辞了，只留一个 35M 的轻量嵌入器，把图片切成 48×48 的小块，当成 token 直接扔进去，让 Transformer 自己学着看世界，音频也一样，16kHz 原始波形切成 40ms 一帧，直接喂进同一个模型。也就是说，图片、声音、文字，第一次被当成同一种东西。为什么敢这么干，因为它赌的是一件事，当基座模型大到某个临界点，那些专门的子模块，就不再是必需品了。这个剧本你可能见过，当年 ViT 取代 CNN，也是同一个套路，规模够大的时候，与其手工设计一堆专用结构，不如把活儿直接交给一个统一的大模型自己学。现在这套逻辑，正从视觉单模态，蔓延到整个多模态架构。而且 12B 这个尺寸不是随便选的，刚好大到能扔掉编码器，又刚好小到能塞进 16GB 的笔记本里，据 aaryan_kakad 在 M4 Max 上的实测，4-bit 量化下识图延迟 1.2 到 1.5 秒，官方说 16GB 够用，社区的说法更实在，能跑，但高分辨率多图会压线。但这条新闻真正值得琢磨的，不是它能跑在你的笔记本上，是它意味着什么，过去做一个多模态应用，你得拼装 Whisper 转录、LLaVa 看图、再接一个 LLM，像攒一台机器，每个零件都得你自己调好接口、对齐、调试。如果 encoder-free 这条路走通，未来一个微调好的统一模型，可能就把这一整条流水线吃掉了。那一刻贬值的，不是某个工具，是你过去攒那台机器、拼那条 pipeline 攒下的全部手艺。模型不是在帮你省一个零件，是在悄悄重写哪种手艺还值钱。

译Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

OpenCode@opencode · 6月4日59

Qwen3.7 Plus now available in Go text · image · 1M context cheaper than 3.6

译Qwen3.7 Plus 现已在 Go 中可用，支持文本和图像，1M 上下文，比 3.6 更便宜。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月4日65

1. 我大約一年前做的這張 Apple 的 XR 頭戴裝置與智慧眼鏡之規劃路線（roadmap）沒什麼參考價值了，目前只剩兩個智慧眼鏡裝置有能見度。 2. 規劃路線大改是由 Apple 的下一任 CEO John Ternus 拍板定案（其實已經改變一段時間，只是我沒即時更新），我認為移除 Vision Pro 系列、並將資源轉向具有更廣大消費潛力的智慧眼鏡類產品是正確決定。 3. 最新的供應鏈調查指出，Apple 具有顯示功能的 AR / XR 智慧眼鏡（採用光波導）將延後到 2029 年。沒有顯示功能的 AI 眼鏡（類似 Ray-Ban Meta）預計還是在 2027 年推出。

译苹果分析师郭明錤更新预测：此前规划的XR头戴装置路线图已作废，目前仅两款智能眼镜设备有能见度。路线图大改由下一任CEO John Ternus拍板，Vision Pro系列被移除，资源转向智能眼镜。最新供应链调查显示，具有显示功能的AR/XR智能眼镜（光波导）推迟至2029年，无显示功能的AI眼镜（类似Ray-Ban Meta）仍预计2027年推出。郭明錤认为智能眼镜将带动下一波消费电子趋势。

🚨 AI News | TestingCatalog@testingcatalog · 6月4日65

GOOGLE 🔥: A new Gemma 4 12B is now available on Huggingface under Apache 2.0 license! > Built with the same multimodal functionality as Gemma 4 E2B and E4B (text, audio, image, and video inputs), it brings native audio and vision understanding directly to local environments without the need for separate encoders. > This unified approach to multimodality makes the model encoder-free, offering a deployment size that is perfect for consumer devices and streamlined local execution.

译Google 最新的 Gemma 4 12B 模型已上线 Hugging Face，采用 Apache 2.0 许可证。该模型与 Gemma 4 E2B/E4B 共享相同多模态能力，支持文本、音频、图像和视频输入，无需单独编码器即可实现原生音频和视觉理解。这种无编码器统一设计方案使其部署体积更小，非常适合消费级设备和本地执行环境。官方称其旨在弥合边缘效率与高级推理之间的差距。

Google AI Developers@googleaidevs · 6月4日77

We’re launching Gemma 4 12B: Our unified, encoder-free model that brings powerful multimodal intelligence straight to your laptop 🚀 The model bridges the gap between our mobile E4B model and larger 26B MoE models, packaging frontier-class reasoning and native audio into a highly optimized footprint, all under a permissive Apache 2.0 license. Here’s what makes it unique: + Encoder-Less Architecture: We removed the multimodal encoders. The vision and audio inputs flow directly into the LLM backbone. + Agentic Performance (16GB VRAM): Run complex, multi-step workflows locally, with performance nearing our 26B model.

译Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

elvis@omarsar0 · 6月4日66

This SkillOpt paper from Microsoft is a must-read! (bookmark it) I was a bit skeptical of the results reported in the paper when I shared it a few days ago. However, I managed to integrate it into my agent orchestrator and ran a few experiments. The results are mindblowing. Essentially, all my agent skills now have a proper testing framework and a way to self-evolve. I have started to improve all my agent skills with this. One exciting result was when I applied it to my paper-figure-extraction skill, which requires an agent to do multimodal analysis. In particular, it improved quality by +20 points (0.73 → 0.93). I went to see the extracted tables and figures, and I was absolutely stunned by how much better my skill got at the task. Self-improving AI is in the early days, but I think this work is a clear example of the current ability of agents to self-improve. In this case, it was skills, but it's not hard to imagine how this scales to optimizing agent patterns, tool use, context engineering efforts, agentic search, workflows, evals, and even the harness itself. I already started with a few of these ideas inspired by SkillOpt. Stay tuned!

译DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后，所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时，质量评分从0.73提升至0.93（+20点），提取结果显著改善。Saravia认为这是自我改进AI的早期范例，该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。

fofr@fofrAI · 6月3日51

Omni magic trick

译Omni 魔术戏法

SenseTime@SenseTime_AI · 6月3日73

A plain sneaker image went in. Marketing visuals came out. #SenseNova U1 — see, think, create — all in one model. #OpenSourced. This is the architecture shift people keep talking about. Shoutout @AiLockup for the demo 🔥 🎥Watch the video: https://youtu.be/9IFgPqMWBGg Try it today: 🎛️ SenseNova Studio: https://unify.light-ai.top/ (Try infographics; also join Discord for text-image interleaved gen) 🤗 https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github

译商汤（SenseTime）开源SenseNova U1模型，宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

向阳乔木@vista8 · 6月3日52

不管怎么说，小红书上线了AI对话功能，还是很实用的。毕竟小红书还是国内真人语料最多的平台之一。且图文并茂，很适合做旅游、美食搜索攻略。

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2062080260586283008 # xAI 视频多模态负责人访谈：视频模型的天花板，其实是语言模型一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人，离职时说的理由是：视频模型最大的瓶颈，其实是语言模型。 Laten Space最近访谈了Ethan He，内容很不错，让AI转写一篇文章。 > https://www.latent.space/p/video-agents ## 他是谁，做过什么 Ethan He 是一位多模态 AI 研究员，职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。在英伟达期间，他是 Cosmos 视频基础模型的核心作者之一。 Cosmos 是一个大规模视频生成模型，目标是模拟物理世界，作为机器人研究的基础底座，于 2024 年底发布。 2025 年中，他加入 xAI，主导 Grok Imagine 的视频和多模态方向，包括： - 音频视频联合生成（Grok Imagine 0.9） - 视频扩展（Video Extension，支持完整历史上下文的长视频生成） - 参考视频生成（Reference-to-Video，支持上传最多 7 张图片作为角色或场景条件） - 内部世界模型团队（专注实时长时程视频生成）访谈时他刚刚离开 xAI，准备转向语言模型方向的研究。 ## 三个月从零到视频模型，靠的不是算法加入 xAI 时，团队没有数据、没有基础设施、没有现成模型，只有几个工程师。三个月后 Grok Imagine 0.9 发布。他总结了两个关键因素。第一是人的密度，而非人的数量。团队里每个人都很强，目标高度一致，沟通成本极低。每天只有一个例会，其余时间全部用来构建。他的观察是：小团队减少沟通带宽，反而比大团队更容易快速迭代。第二是迭代速度，而非单次训练质量。他的核心判断是：训练模型最重要的指标，不是某次实验的结果有多好，而是每天能跑多少轮实验。迭代越快，发现 bug 的机会越多。而且他特别强调：模型质量最大的提升，往往不来自新算法，而来自数据管道和训练流程里那些不起眼的小 bug。这听起来有点怪，但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。他还提到一个时间节点：2025 年中加入时，代码模型还不够好，写出来的代码经常是几千行的"意大利面条"，连模型自己都搞不清楚怎么维护。到 2025 年 12 月，代码模型已经强到可以快速实现任何想法。这带来了一个新的瓶颈反转：以前是写代码慢，现在是算力跟不上想法的速度。代码几小时就能写完，但训练一个新模型可能要等好几周。 ## 视频模型是怎么炼出来的：完整路径第一步：先训图像模型，再训视频模型原因很实际，图像比视频便宜得多，而且语言和图像之间的对应关系更密集。举个具体数字：训练 10 亿张图文对，和训练 10 亿个视频文本对，成本完全不在一个量级。但前者能给模型打下更扎实的语言理解基础。视频模型对语言的理解，完全来自这种文本到视觉内容的映射关系。如果映射数量不够，模型就不能充分理解人类意图。所以标准做法是：先训图像扩散模型，再用它作为基础，迁移到视频模型。第二步：解决数据对齐问题互联网上的视频天然缺少精准的文字描述。 YouTube 上的标题和评论，和视频内容本身几乎没有关联。一段山川自然风光，标题可能是"今天真开心"，二者毫无关系。所以必须用 VLM（视觉语言模型，能同时理解图像和文字的 AI 模型）给视频打字幕，生成合成的文本视频对。但 VLM 本身在早期也需要人工标注来冷启动。 Cosmos 的标注要求非常具体：描述要详细到让一个盲人听完文字，就能在脑海中重建出这段视频。所有物体、角色、互动、对话，都要覆盖。这个标准直接决定了后来视频模型能不能真正理解人类意图。第三步：训练 VAE（变分自编码器，一种把图像压缩成低维表示再还原的压缩器）原始视频帧的像素量太大，1000×1000 的图像就有 100 万个像素，Transformer（一种主流的 AI 模型架构）根本无法直接处理。 VAE 把图像映射到一个低维的连续潜空间（latent space，可以理解为图像的"压缩编码"），再从潜空间还原回图像。具体做法是把图像切成小块（patch），每个小块映射成一个向量，这样一张图就变成了几十个向量，而不是 100 万个像素。时间维度的压缩比例是个关键决策。 Wan 2.1 采用 8×8×4 的压缩率，时间维度压缩 4 倍，上下文长度大幅缩短，训练效率更高。但代价是实时性：如果要做实时交互，时间维度的压缩会引入固定的延迟，无法做到即时响应。如果不压缩时间维度，只做帧内压缩（8×8×1），上下文长度会是 4 倍压缩方案的 4 倍，计算量大得多，但可以支持帧级别的实时输出。第四步：训练扩散 Transformer（Diffusion Transformer）流程和语言模型非常相似，区别只是输入输出换成了视觉 token（图像的压缩表示），以及加入了去噪过程：向视觉 token 加入随机噪声，训练模型把噪声去掉，推理时从纯噪声开始迭代生成干净的图像或视频。推理侧的主要优化手段是步骤蒸馏（Step Distillation）：用完整模型跑 100 步生成高质量结果，再训练一个只需要 10 步的小模型去模仿它。这背后的逻辑是：完整模型要学的是整个互联网的图像分布，极其复杂，蒸馏模型只需要学老师模型的分布，简单得多。 Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成（针对图生图等简单任务）。 ## 训练一个视频模型到底要花多少钱 Ethan He 做了一个粗略的估算，数字很有参考价值。模型规模：视频模型和中等规模语言模型相当。 LTX 是 19B（190 亿）参数的稠密模型，也有人在探索 MoE（混合专家模型，一种让模型只激活部分参数的架构），激活参数约 20B，总参数可能达到数百 B。 Cosmos 公开披露的视觉 token 数量也在数十万亿量级，和语言模型的训练规模接近。存储成本：假设有 10 亿个视频，每个视频 5MB，光存储就需要 5PB（5000TB）。加上 VAE 提取的特征文件，总存储量翻倍，达到约 10PB。在 AWS S3 标准存储上，5PB 的月存储费用约 23 万人民币，加上数据出口费用，每月总成本可能达到数百万人民币，还没算 GPU 训练成本。他特别提到：数据出口费用（把数据从云端传输出去的费用）比存储本身更贵。每次训练都需要把数据拉取一遍，如果多次训练，费用成倍叠加。这也是为什么大规模训练团队通常会自建存储基础设施，而不是完全依赖公有云。 I/O 瓶颈：视频训练天然是 I/O 密集型任务，数据加载速度很容易成为 GPU 利用率的瓶颈。 Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。 ## 世界模型的定义：三个缺一不可的条件 Ethan He 给世界模型下了一个工程意义上的定义，三个维度。交互性：模型可以响应键盘、鼠标、语音等多种输入，并给出合理的反馈。实时性：响应延迟要足够低。 CS 职业选手需要亚 3 毫秒的响应（300FPS 对应约 3 毫秒每帧），60FPS 游戏需要 16 毫秒，实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。长时程：不是生成几秒钟的片段，而是能持续生成几分钟甚至几小时的内容，同时保持角色、场景、声音的一致性。三个条件同时满足，才算世界模型。目前的视频模型在任何一个维度上都还有很大差距。长时程的工程难题 Cosmos 里 5 秒视频就有约 55K 到 60K 个 token，50 秒就是 500K token，再长就很难处理。现有视频模型的上下文窗口大约在几百万 token 量级，但实际使用中很快就会爆炸。 Ethan He 在 xAI 主导的视频扩展（Video Extension）功能，是迈向长时程的第一步：让模型在生成下一段视频时，能访问之前所有视频的完整历史上下文，而不只是最后一帧或最后一秒。这解决了多次扩展后视频质量退化、人物声音漂移的问题。参考视频（Reference-to-Video）是另一个折中方案：允许用户上传最多 7 张图片作为条件，让模型在生成时参考特定角色或场景。 Ethan He 自己也承认这是个"作弊"方案，真正的解法是让模型自己学会从历史中选择性地提取相关上下文。 FramePack（一篇论文提出的方法）提供了一个启发式思路：最近的历史保留完整分辨率，越早的历史压缩得越小，总 token 数保持固定上限。这和人类记忆的工作方式有些相似，但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留，而不是靠人工设计的规则。 ## 视频模型最大的进步，来自语言模型这是整个访谈里最反直觉的判断，也是 Ethan He 离职的核心原因。扩散模型本身其实很"笨" 扩散模型（Diffusion Model，一种通过去噪生成图像或视频的模型）在训练时被要求按照极其详细的文字描述生成视频，所以推理时也会字面理解用户的输入。你说"一只猫"，它就生成一只猫，白色背景，静止不动，因为你没说背景，没说动作。它取的是训练数据里那种极度详细的描述风格，用户的简短输入和这个分布完全不匹配。提示词重写器才是真正的智能来源真正让模型变聪明的，是提示词重写器（Prompt Rewriter），一个更大的语言模型，负责把用户的简单描述扩展成极其详细的视频描述。 Cosmos 用的是 Llama 或 Mixtral，而且提示词重写器比视频扩散模型本身（7B 参数）还要大。他举了一个具体例子：同样是生成一只快乐的羊，不经过重写，结果看起来像 CGI；经过重写之后，画面质量有质的飞跃，而且这个提升不需要任何联合训练。 GPT Image 生成一张图需要 3 分钟，其中大部分时间不是在生成像素，而是在"思考"，也就是提示词重写和规划阶段。语言模型的角色还在扩展提示词重写只是第一步。现在语言模型在视频生成中的角色已经扩展到： - 工具调用：生成图片前先联网查今天的新闻，处理后再生成 - 智能体协调：调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具，迭代生成高质量内容 - 布局规划：决定视频的结构、时间线和内容组织 Grok Imagine 已经有了一个智能体模式的早期版本，可以通过调用不同工具来生成更长的视频。 ## 音频：被低估的难题 Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。音频的难点在于它有两个截然不同的成分： - 语音部分：接近离散 token（可以理解为有限词汇表里的单词），可以用类似语言模型的方式处理 - 音乐部分：完全连续，无法离散化，现有语言模型对音乐的理解非常有限让语言模型描述音乐细节，就像让盲人描述颜色一样困难。大多数语言模型可以识别"这是哪首歌"，但无法描述音乐的节拍、音调和细节，更无法生成高质量的音乐。更大的挑战是时间对齐。文本和图像之间的对应是松散的，你可以用一段话描述整张图。但音频和视频必须在时间轴上精确对齐：哪一秒有什么声音，必须和画面严格同步。这种精确的时间感知，是现有多模态模型普遍缺失的能力。 ## 生成式 UI：扩散模型作为前端访谈中展示了两个产品案例，代表了 Ethan He 对未来交互方式的判断。 Flipbook：一个用图像生成模型实时渲染的浏览器界面。页面里的所有内容都是模型生成的，公司不存在，场景是虚构的。用户点击链接，模型就生成新的子页面。比如点击"金字塔建造技术"，模型会生成一个详细介绍杠杆技术的新页面，配有对应的生成图像。 Neural OS（神经操作系统）：用视频模型模拟一个完整的操作系统，可以运行 Doom、Firefox 等应用，所有画面都是模型实时生成的。 Ethan He 的预测是：随着推理成本下降，扩散模型会成为人机交互的前端层，语言模型和确定性代码在后端运行，用户看到的所有界面都由生成模型实时渲染。每个用户可以有完全不同的界面，邮件可以像 TikTok 一样滑动，Instagram 可以去掉你总是误触的点赞按钮。他估算了一下成本：如果每 100 个请求 1 美元，每天用 8 小时，每月大约 240 美元。现在确实贵，但推理成本每年大约下降 2 倍，他认为这个未来会到来。他还提出了一个关于人机带宽的判断：人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。所以未来最自然的人机交互方式，是用户说话，AI 用生成式画面回应，这是神经链接（Neuralink）出现之前的最高带宽交互形式。 ## 为什么离开 xAI Ethan He 的回答很直接：有些研究在公司里做不了，而且公司的优先级会快速变化。他想做的，是语言模型方向的研究，特别是模型如何自主管理自己的上下文。他的具体预测是：语言模型很快会出现真正的上下文感知能力，模型知道自己的上下文窗口用了多少，能主动决定压缩、丢弃或保留哪些内容，而不是依赖外部 harness（智能体框架，一种包裹模型的工程系统）的启发式规则。他举了一个例子：现在 Claude（Anthropic 的 AI 模型）在上下文接近上限时会自动触发压缩，但模型本身对这个过程毫不知情，还在按照原来的方式工作。理想状态是模型自己感知到"我快到上限了"，并主动调整策略。他认为视频模型在这方面的探索某种程度上比语言模型更超前，因为视频的长时程问题更紧迫，研究者被迫更早面对这个问题。他还提到一个更激进的想法：如果把智能体框架的代码直接放进模型的上下文，让模型能够修改自己的运行规则，比如决定"读长文档时我要分块处理还是只读前 200 行"，这种自我修改的智能体框架可能是一个值得探索的方向。 ## 职业轨迹：每一次转型都是主动押注 Ethan He 的职业路径本身也值得单独说一下。十年前他在做 ResNet（残差网络，一种经典的图像识别模型架构）时代的图像识别和目标检测研究，同时做模型压缩。他当时想当教授，已经有几篇顶会一作论文，自信地申请了顶校博士，结果全部被拒。被迫进入工业界，反而让他在 Facebook FAIR（Meta 的 AI 研究院，由 Yann LeCun 领导）做了自监督学习，之后到英伟达做 Cosmos 和 MoE（混合专家模型）扩展，再到 xAI 做视频多模态。他在英伟达的另一个重要工作是 Megatron MoE，这是第一个开源的、能够高效训练超大规模 MoE 模型的框架，支持从 1000 亿参数到万亿参数的训练，MFU（模型浮点利用率，衡量 GPU 利用效率的指标）达到约 40%。他的结论是：在机器学习内部切换方向，比大多数人想象的容易。训练大模型的核心原则是通用的，换个方向并不需要从零开始。很多人觉得"我做计算机视觉，就只能做计算机视觉"，但他的经验证明这个边界没有那么硬。 ## 关键判断汇总 ## 局限性和没说清楚的地方这篇访谈有几个地方值得注意：信息不对称： Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论"，比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。成本估算是粗略的：他的存储和训练成本计算是信封背面的估算，实际情况会因数据规模、训练次数、基础设施选择而有很大差异。 "语言模型是瓶颈"这个判断有边界：他承认扩散模型本身的改进仍然重要，只是说在当前阶段，语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。世界模型的定义是他个人的：他在访谈开头就声明，世界模型有很多定义，他只是分享自己的视角，不打算辩论谁对谁错。本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。 Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者，xAI Grok Imagine 视频多模态负责人。

译xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示，视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发，并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂，例如存储10亿个视频需5PB，仅AWS月费就达数百万人民币。视频模型需先预训练图像模型，再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸，而他认为扩散模型对文本的理解过于字面化，对语言意图的深层理解才是突破关键。

向阳乔木@vista8 · 6月3日54

果然做过的人的分享就是不一样，Laten Space 访谈了 Ethan He，罗列一些观点： 1. 模型进步速度，来自于团队迭代速度。 2. 模型质量提升，往往不来自新算法，而是来自修数据和训练流程里的BUG（最近好多研究员播客访谈都提到类似观点） 3. 视频模型训练需要文本视频对标注，画面描述要详细到让盲人听完文字，能在脑海中重建这段视频。 4. GPT Image 生成一张图要几分钟，大部分时间不是在生成像素，而是在"思考"重写提示词。 5. 让语言模型描述音乐细节，就像让盲人描述颜色一样困难。 6. 扩散模型会成为人机交互的前端层，用户看到的所有界面都由生成模型实时渲染。 7. 人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。在脑机接口普及前，最自然的人机交互方式，是用户说话，AI 用生成式画面回应。

译本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验：模型进步取决于团队迭代速度；质量提升常源于修复数据与训练流程的BUG而非新算法；视频模型需要极详尽的文本标注。他还指出，图像生成耗时主要在“思考”重写提示词，且语言模型描述音乐细节非常困难。在脑机接口普及前，最自然的人机交互将是用户说话，AI用生成式画面回应。

Saining Xie@sainingxie · 6月3日67

how does the brain build and track an internal state of the world from (possibly incomplete and noisy) visual observations? i believe visual state tracking will be the grand challenge for vision in the coming years, and i hope this benchmark can be a useful starting line. enjoy!

译研究团队推出VSTAT基准测试，用于评估多模态大语言模型（MLLMs）在视频中追踪动态状态的能力。测试任务看似简单，包括计数杯子、识别键入的文字、统计翻页次数等，人类可以轻松完成，但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展，解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

MiniMax (official)@MiniMax_AI · 6月3日71

Day-0 on SiliconFlow and 50% off 🔥 the first week frontier coding, 1M context, and native multimodal, all in one open-weights model. This is what we built M3 for. Go try it 👇

译MiniMax 官方宣布，其开源权重模型 M3 已在 SiliconFlow 平台上线，并提供为期 7 天的 50% 限时折扣。该模型号称是首个结合编程与智能体能力（在 SWE-Bench Pro 上超越 GPT-5.5 和 Gemini 3.1 Pro）、通过 MiniMax Sparse Attention 支持 100 万 token 上下文窗口、并原生支持多模态（涵盖图像、视频与计算机使用）的三大前沿能力的开源模型。SiliconFlow 当前优惠价为：缓存 $0.06、输入 $0.30、输出 $1.20 每百万 token（原价 $0.12/$0.60/$2.40）。

SenseTime@SenseTime_AI · 6月3日34

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also note that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译商汤联合创始人兼首席科学家在2026 AI创新论坛指出，模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在生成信息图时实现了显著更低的计算成本，并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展，以创造商业价值与长期竞争力。

MiniMax (official)@MiniMax_AI · 6月3日74

We wrapped a live session on M3 yesterday with the @togethercompute team & our researchers @zpysky1125 and @HaohaiSun A few highlights 🧵 1. MSA (MiniMax Sparse Attention) is the star ⭐️. Unlike CSA/HCA, which compress the KV cache, MSA keeps the real, uncompressed KV and does block-level selection with a small top-K. That's how the 1M context window stays tractable. 2. The efficiency win is huge. In our previous generation, ~30% of per-decode wall-clock time went to the attention kernel. With MSA that now drops to ~5%. Big gains for long-context generation. 3. M3 isn't just a coding model. Natively multimodal (image + video in), ability to handle long-horizon agentic tasks, and even operate a desktop computer. People are already throwing game-dev + Minecraft-style builds at it (Unity included) and it's holding its own. 4. M3 can self-evaluate on vision-coding tasks: it builds a website or SVG, browses and inspects its own rendered output, judges it, and iterates - grading work visually. 5. We're also seeing junior-analyst-level performance on finance tasks; something we haven't even showcased publicly yet. 6. What's next: harder long-horizon / multi-file tasks in future releases, scaling data + post-training (RL) compute toward pre-training scale, and going deeper into finance, legal & bio. Thanks to everyone who joined 🙏 Try M3 link in the comments👇

译MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择，保持真实、未压缩的KV缓存，使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%，效率提升显著。M3是原生多模态模型，支持图像视频输入，可处理长程智能体任务及桌面操作，并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务，并扩展金融、法律与生物领域。Together AI为其提供推理服务。

MiniMax (official)@MiniMax_AI · 6月3日80

MiniMax-M3 #6 overall on @ValsAI the new open-weight SOTA 🚀

译MiniMax-M3 在 @ValsAI 排名中位列第六新的开源权重 SOTA 🚀

🚨 AI News | TestingCatalog@testingcatalog · 6月3日44

GOOGLE 🔥: NotebookLM will get a new "Planning Mode" for Video Overviews. This also likely signals that Google is upgrading Video Overviews to rely on recently released Gemini Omni!

译GOOGLE 🔥: NotebookLM 将为视频概述新增一个“规划模式”。这也可能意味着 Google 正在升级视频概述功能，使其依赖于近期发布的 Gemini Omni！

Microsoft Research@MSFTResearch · 6月3日72

Weather forecasts thousands of times faster than traditional supercomputers. Hear from Kenji Takeda on Aurora at the Microsoft Research Lab at #MSBuild. Learn more: https://msft.it/6018vjGUA

译天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多：https://msft.it/6018vjGUA

OpenRouter@OpenRouter · 6月3日68

Three new @MicrosoftAI models now live on OpenRouter! Launching together: MAI-Image-2.5, MAI-Transcribe-1.5, and MAI-Voice-2. More on each below 🧵

译三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

fofr@fofrAI · 6月3日57

This is 🔥

译这是🔥 [引用 @DavidMaliglowka]：Gemini Omni 🏕️ 提示词在 🧵

向阳乔木@vista8 · 6月3日70

读了今天Huggingface最热论文，关于如何让AI生成论文图表的Harness框架。框架会围绕一个共享的结构化规格文档 S。 ① 设计者 D：根据 S 生成可执行的视觉方案 ② 执行者 E：将方案渲染成图像（或代码） ③ 验证者 V：输出带有具体问题定位的诊断报告 ④ 修订者 R：将诊断转化为结构化操作，直接修改 S 中的对应字段参考并简化，写了一个Skill：设计者（生图提示词）执行者（Codex调用GPT-image-2生图）验收者（审美评判，这个可能不靠谱）另外整合了抓取Skill，只需要提供URL就能生成配图，哪怕是 X URL。生成效果如下：

译Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作，包含四个协作角色：设计者生成视觉方案，执行者渲染图像或代码，验证者输出带定位的诊断报告，修订者据此修改规格文档 S。作者参考该框架进行了简化实践，写成一个技能包，其中使用了 GPT-image-2 进行生图，并整合了 URL 抓取功能，可直接生成配图。

Suno@suno · 6月3日23

We're working on our listening experience. Think playlists, albums, radios, etc. But we want your thoughts. What listening experience should we build next? Share your thoughts here: https://forms.gle/SVQ6gunSLyq85e7J9

译我们正在改进收听体验。比如播放列表、专辑、电台等。但我们想听听你的想法。接下来应该打造怎样的收听体验？请在此分享你的想法： https://forms.gle/SVQ6gunSLyq85e7J9

Microsoft Research@MSFTResearch · 6月3日50

Welcome to Microsoft Build 2026. Step inside the Microsoft Research Lab, where developers are getting hands-on with the latest from MSR. Aurora’s forecasting models, Trellis 3D generation, Magentic UI, Mindful Memory, and more.

译欢迎来到 Microsoft Build 2026。走进微软研究院实验室，开发者们正在亲身体验来自MSR的最新成果。Aurora的预测模型、Trellis 3D生成、Magentic UI、Mindful Memory等。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日70

MICROSOFT 🔥: New MAI Code 1 Flash and MAI Thinking 1 models have been revealed on the official MAI website! Also, MAI Image 2.5, MAI Voice 2, and MAI Transcribe 1.5 are there too. > MAI-Code-1-Flash plans and reasons through complex coding tasks from start to finish, so you spend less time debugging and more time building. > MAI-Thinking-1 (35B active, ~1T total parameters, MoE) has a smaller inference footprint than much larger models, yet is competitive with Claude Opus 4.6 on SWE-Bench Pro. h/t @MeetPatelTech

译微软在官网更新了 MAI 模型系列，重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数，采用 MoE 架构，其推理成本低于更大型模型，但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外，MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

Rohan Paul@rohanpaul_ai · 6月3日81

OpenAI just gave Codex a major upgrade. From a coding assistant into a workspace builder that can create interactive sites, apps, dashboards, planners, and review tools from plain work instructions. The most important new feature they released is "Sites". i.e. Codex can generate a hosted interactive workspace instead of only producing a document, spreadsheet, slide, or code file. OpenAI is also adding plugins for different jobs, so Codex knows how to help analysts, marketers, sales teams, product designers, investors, and bankers using the tools they already use. A data analyst might ask Codex to explain why sales dropped, then Codex could pull from data tools and create a dashboard. A sales team might ask Codex to prepare for a customer meeting, then Codex could collect account history, risks, follow-ups, and next steps into one shared page. The third feature is annotations, which means you can click a specific part of the result and ask Codex to fix only that part. Codex already reaches 5M weekly users, and OpenAI says 20% of them are now non-developers, with that group growing over 3x faster than developers.

译OpenAI 为 Codex 带来重大升级，将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区，而不仅是文档或代码文件。同时新增插件以适配不同职业，并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户，其中20%为非开发者，该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。

Google Gemini@GeminiApp · 6月3日41

See Gemini Omni in action with a live demo from one of the team members who helped build it. Join us on Discord as Product Manager Chloe shares how to use Gemini Omni’s multimodal inputs, real-world knowledge, and easy conversational editing to create videos like never before. 👉Join the Discord to watch live: http://discord.gg/gemini 📅 Wednesday, June 3 at 11:30am PT

译通过一位参与构建的团队成员的现场演示，了解 Gemini Omni 的实际效果。加入我们的 Discord，产品经理 Chloe 将分享如何使用 Gemini Omni 的多模态输入、现实世界知识和便捷的对话式编辑，以前所未有的方式创建视频。 👉加入 Discord 观看直播：http://discord.gg/gemini 📅 太平洋时间 6 月 3 日星期三上午 11:30

AK@_akhaliq · 6月3日60

Seeing Isn't Knowing Do VLMs Know When Not to Answer Spatial Questions (and Why)?

译视觉语言模型知道何时不回答空间问题吗（以及为什么）？

小互@xiaohu · 6月2日61

AI 在医疗应用中不再只是“看片子找病灶”，而是能替医生提前模拟“这个治疗方案，三个月后病人会怎样”。可以模拟多种治疗方案，直接告诉医生哪个最好。真实世界里根本不允许你多试几次，而这，恰好是世界模型最值钱的地方，AI提供多种决策模拟，由人类来进行最终决策。这个方向极具推广价值，比如可以应用到农业气候市场判断、城市规划设计、低空经济的线路策略设计，甚至各种真实世界的预测上。 Future Living Lab @FutureLab2025 分享的这个视角非常有洞见，他们长期专注把世界模型技术落地到高 stakes 真实场景。想持续看到这类前沿思考，强烈推荐关注！你觉得世界模型下一个会颠覆哪个行业？👇

译世界模型（World Model）在医疗领域实现突破，从传统的静态病灶识别转向动态预测模拟。医学世界模型（MeWM）能基于患者当前CT影像，模拟数月疾病进展，并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中，其通过反事实推理量化不同方案对生存率的影响，将临床决策成功率（F1-score）提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。

Rohan Paul@rohanpaul_ai · 6月2日65

Most video models look better than they understand and Video quality is only the easiest thing to notice. LongCat just released WBench, it turned video world model testing from a beauty contest into a stress test for control, multi-turn memory, instruction-following, and physical plausibility. It exposed the gap between beautiful video generation and controllable world simulation. A pretty clip is not enough, because a usable world model must keep the same scene, obey later actions, move the camera correctly, preserve objects, and avoid impossible cause-and-effect. WBench tests this with 289 cases, 1,058 interaction turns, 20 models, 5 dimensions, and 22 automatic metrics, covering navigation, subject actions, event edits, perspective switches, and both viewpoints. Across all those 20 evaluated models, the paper finds that no model dominates all dimensions, which means current systems have not yet merged high-quality rendering, reliable control, long-horizon memory, and physical rule-following into one stable capability. Its design separates the world setup from the user action, so researchers can identify whether a failure comes from weak rendering, poor scene setup, bad control, lost state, or broken physics. Navigation has near-zero connection with visual quality, consistency, or physics, meaning a model can look strong while still failing to move on command. The key shift: stop asking only “does the video look good?” and start asking “can the model keep a controllable world alive across many turns?” 🧵 1.

译美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次，评估了20个模型在导航、主体动作、事件编辑等5个维度的表现，共使用22项自动指标。研究发现，没有任何模型能在所有维度上占据主导，这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题，并指出导航能力与视觉质量基本无关。

MiniMax (official)@MiniMax_AI · 6月2日72

Watch M3 reach the frontier 🚀

译MiniMax发布M3模型，宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出：SWE-Bench Pro得分59.0%，Terminal Bench 2.1得分66.0%，SWE-fficiency 34.8%，KernelBench Hard 28.8%，MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务，模型权重和技术报告预计约10天后发布。

SenseTime@SenseTime_AI · 6月2日71

Turning complex information into accurate charts and diagrams. That's 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. Learn more: https://x.com/SenseTime_AI/status/2061465029959209106?s=20

译将复杂信息转化为准确的图表和示意图。这就是 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰。了解更多：https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件，它是一个免费开源的软件，功能非常强大。目前我日常主要在两个场景中使用转录+剪辑+翻译工具： 1. Memo 软件 (a) 场景：主要用于处理下载到本地的视频。 (b) 流程：这软件可以下载了 Whisper 的本地大模型，下载完视频后先进行转录，不再烧Token。 (c) 翻译：虽然也可以用本地模型翻译，但速度和效果可能没有 API 快，所以我接入了 DeepSeek-V4 -Flash 来进行翻译，价格便宜又好用。 (d) 体验：Memo就可以完成烧录字幕，编辑，导出整个片子的剪辑其实都挺快的，但在 X 上发布时速度贼慢，搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景：主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点：它能保持比较不错的格式，方便后面做分享。我觉得这两个工具都挺好的，自由度比较高。你可以接入自己订阅的 API 模型，自由切换，非常方便。此外，Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。

Alibaba Cloud@alibaba_cloud · 6月2日82

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://int.alibabacloud.com/m/1000413837/ API：https://int.alibabacloud.com/m/1000413829/

译阿里云推出Qwen3.7-Plus，这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手，支持全模态输入，能够跨GUI与CLI执行任务。该模型具备视觉智能体能力，涵盖感知、推理、定位及搜索增强问答，并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

Berryxia.AI@berryxia · 6月2日51

记得4月我们内部Apple 给大家介绍ComfyUI工作流时，很多人一脸懵逼！因为他们平时都是玩豆包、DeepSeek 的！压根没有接触过ComfyUI 这玩意，但是也和客户，以及周围干业务的人接触知道。其实这玩意在工作流生产环节中使用的频率非常高！我也发现一个趋势越来越明… 5月他们悄无声息地集成了11个跨图像、3D、音频、视频和多模态的新模型。最亮眼的几个直接可以把项目效率拉高了一个量级。 Krea 2 把风格优先的图像生成直接拉进来，第一天就以Partner Node形式上线。它不再只拼画面里有什么，是把整个画面的感觉做到极致。 VOID来自Netflix，能把对象连同它带来的阴影、反射、物理交互全部干净移除，Apache 2.0开源，原生支持。 Tripo 3.1加TripoSplat，则实现了一张图直接出完整3D Gaussian资产，全流程端到端。此外Gemma 4、Stable Audio 3、BiRefNet、MoGe、Claude、OpenRouter、Luma UNI-1也同步上线。这些模型以前可能还得单独开云端账号、调API、处理格式兼容。现在全变成ComfyUI里的节点，随手拖拽就能串成复杂工作流。这其实戳破了一个共识：AI进步不是靠单一模型越来越大，而是靠本地工具把最新能力快速变成可组合、可重复的生产力。 ComfyUI把前沿研究直接转化成每个人都能本地跑的节点，真正让创作者把控制权握在自己手里。

译ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型，将前沿AI能力转化为可本地运行的节点。亮点包括：Krea 2以Partner Node形式上线，专注于风格优先的图像生成；来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互；Tripo 3.1与TripoSplat结合，实现单图端到端生成3D Gaussian资产。此外，Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性，通过节点拖拽即可构建复杂工作流。

MiniMax (official)@MiniMax_AI · 6月2日74

🚀 M3 is live on Vercel's AI Gateway! Our first long-context model with 1M tokens, multimodal input. AND 50% off for the week 🎉 Love to see what everyone builds with M3 and @vercel_dev ✨

译🚀 M3 已在 Vercel 的 AI Gateway 上线！我们首个支持 1M token 长上下文和多模态输入的模型。本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

ginobefun@hongming731 · 6月2日71

#BestBlogs 早报 06-02 MiniMax 发布了国内首个集前沿 Coding、1M 超长上下文、原生多模态于一体的开源模型 M3，24 小时自主完成 145 次 CUDA 算子迭代，把抽象的 benchmark 变成了可验证的工程实力。与此同时，xAI 前负责人给出一个反直觉判断：视频模型的上限跟着 LLM 走，下一个 Sora 是视频 Agent 而非更好的视频模型。今日 BestBlogs 早报，还有 Chromium 3500 万行代码库的 AI Coding 规范体系、语音智能体生产工程实践、「RAG 不是机器学习」等 10 篇精选，欢迎阅读。

译MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时，xAI前负责人指出，视频模型的上限将由LLM决定，下一个类似Sora的产品应是视频Agent，而非单纯的视频生成模型。

Alibaba Cloud@alibaba_cloud · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。