6月5日

01:34

fofr@fofrAI

我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。

fofr: True story. > Say Paella like a British woman

多模态教程/实践

01:05

Google Gemini@GeminiApp

看看用 Gemini Omni 将最疯狂的创想变为现实有多简单。只需在 Gemini 中选择"Create videos"，添加文字、视频或多达五张图片，然后尽情释放你的想象力。

Google 产品更新多模态视频

6月4日

23:16

SenseTime@SenseTime_AI

商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1，一个原生理解和生成文本与图像的统一模型。该模型已开源，用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face 图像生成多模态模型发布

关联讨论 1 条

23:15

SiliconFlow@SiliconFlowAI

精选72

Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型，性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

多模态推理模型发布编码

推荐理由：后训练模型能直追 GPT-5.5 和 Claude 4.7，免费两周，对做 agent 和 deep search 的人来说是难得的低成本试错机会。

22:46

SenseTime@SenseTime_AI

同事件精选69

SenseNova U1 开源统一模型：原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型，实现原生理解与生成文本和图像，可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源，提供 SenseNova Studio 在线试用，并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这回把图文统一模型开源了，SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局，做内容的朋友可以上手试试。

21:52

Rohan Paul@rohanpaul_ai

Fei-Fei Li 谈世界模型 vs 大语言模型

李飞飞（Fei-Fei Li）指出，大语言模型（LLM）仅学习文本模式，能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构，能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动，都需要一个共同的内在模型，涵盖空间、因果与后果。

Fei-Fei Li: http://x.com/i/article/2062244283940544512

具身智能多模态大佬观点

21:18

StepFun@StepFun_ai

同事件精选77

阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型（VLM），含 196B 语言骨干和 1.8B 视觉编码器，从设计之初优化推理效率，采用硬件友好架构与 MTP 辅助解码，速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力，面向真实智能体工作负载，采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：198B稀疏MoE加MTP解码把速度推到400 tok/s，还开源Apache 2.0，这规格做agent的大脑正合适，做实时应用的可以试试手。

21:07

公众号：百度智能云（文心）

全灵（SEELE AI）联合百度智能云推出MoT大模型，一句话生成可玩世界

全灵（SEELE AI）推出自研MoT（Mixture-of-Transformers）多模态大模型，围绕游戏世界训练，模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对，标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo，玩家可在AI生成的城市中移动、跳跃、瞄准、换弹，与NPC互动；内测中的3A Open-World由4D World Model驱动，目标实现真正可玩的开放世界。

智能体多模态行业动态

20:53

Google AI Developers@googleaidevs

加入 @GoogleDeepmind 和 @HeyGen，6月11日！我们面向AI智能体、创意工具和多模态应用开发者的洛杉矶活动现已开放注册 👇 https://x.com/HeyGen/status/2062256762867388748

HeyGen: HeyGen + Google DeepMind in LA on June 11 A night of demos, conversations, and people building with agents, multimodal a...

智能体 Google 多模态行业动态

20:52

Rohan Paul@rohanpaul_ai

Anuma：跨模型统一记忆的私人AI工作空间

Rohan Paul 介绍 Anuma，一个私人 AI 工作空间，核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时，上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode（多模型并列回复对比）、单聊内模型切换，以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例：上传多篇论文，利用多模态和多模型并行工作流，对比不同模型对同一主题的阅读、总结和关联能力，避免重复解释上下文。

MCP/工具多模态教程/实践

18:25

公众号：面壁智能（MiniCPM）

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

12:37

Elon Musk@elonmusk

Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。主推文：Grok Imagine 1.5 排名第一。

DogeDesigner: Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇

xAI 多模态行业动态视频

12:17

StepFun@StepFun_ai

阶跃星辰发布开源 Step 3.7 Flash（Apache 2.0），采用 MoE 架构（198B 总参/11B 活跃参），配备 MTP 辅助解码（3 个预测头），输出速度超 400 tokens/s，是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6，较 Step 3.5 Flash 提升 4 分。智能体能力明显增强：GDPval-AA Elo 升至 1298，TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器，MMMU-Pro 得分 75.3%。上下文窗口 256K tokens，提供 BF16、FP8、NVFP4 版本。缺点：AA-Omniscience 准确率仅 25.4%，幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布

12:11

IT之家（RSS）

谷歌 AI Edge Gallery 登陆 Mac，16GB 内存可运行 Gemma 4 12B 模型

谷歌 AI Edge Gallery 现已登陆 macOS，Mac 用户可在本地离线运行 Gemma AI 模型。该应用提供 5 个谷歌指令调优模型，其中 Gemma-4-12B-it 可在 16GB 内存 Mac 上处理文本、视觉和音频，具备代码能力，实现设备端智能体和多模态分析。AI Edge Gallery 完全离线、私密性高且速度快。同时，谷歌推出免费听写应用 Google AI Edge Eloquent，支持语音转文字、去除口误和轻度润色，全部在设备端完成，并支持不同写作风格和自定义词汇。

Google 产品更新多模态端侧

12:00

DogeDesigner@cb_doge

Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Elon Musk: Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

多模态模型发布视频

11:52

Artificial Analysis@ArtificialAnlys

StepFun 开源 Step 3.7 Flash 模型，性能与速度并进

StepFun 开源 Step 3.7 Flash（Apache 2.0），总参数 198B、激活 11B（MoE），上下文 256K。在 Artificial Analysis 智能指数上得分 42.6，较 Step 3.5 Flash 提升 4 分，输出速度超 400 tokens/s，通过 Multi-Token Prediction（3 个 token）加速。新增 1.8B 视觉编码器支持原生多模态，MMMU-Pro 得分 75.3%。代理能力提升：GDPval-AA Elo 从 1070 升至 1298，TerminalBench Hard 达 35.6%，AA-LCR 63.7%。知识/幻觉仍弱：AA-Omniscience 准确率 25.4%，幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。