6月8日

18:00

公众号：通义实验室（千问）

同事件精选68

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

同一事件，精选展示《Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理》

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。

17:53

公众号：通义实验室（千问）

精选67

Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent（如Qoder）自动完成Android端侧AI App开发全流程。Agent依次执行：检查并配置Android环境（JDK 21、NDK 27等）、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录，最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标，Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

推荐理由：这是一篇手把手教程，用 Agent 简化 Qwen3-VL Android 部署，对想试端侧 VL 的开发者实用，但绑定阿里生态，通用性有限。

6月6日

17:52

公众号：MiniMax（稀宇科技）

海螺AI×上影节活动日历：开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴，6.14-6.15举办开放日。活动包括：AI片场·海螺专属Booth（展示1+1组合作品及过程）、6.14多模态行业交流会、6.15专题圆桌（超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈）。具体时间地点详见图片。

图像生成多模态行业动态视频

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic 多模态论文/研究评测/基准

关联讨论 2 条

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

01:17

Cursor Blog

精选74

在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode，支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份（xpath、组件、属性、计算样式等）与页面截图一并纳入上下文，快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力，可连续下达多个编辑指令，智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环，使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由：Cursor这次的Design Mode把「指哪改哪」做成了标准流程，不再靠一句prompt猜你的意图，而是直接给agent看元素、画圈圈，前端开发的反馈循环被压缩到秒级，赶紧试试。

6月5日

23:11

Google Blog：AI（RSS）

谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展，涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体 Google 产品更新多模态

13:27

公众号：京东JoyAI

精选72

京东开源JoyAI-Echo长音视频生成框架

6月3日，京东开源JoyAI-Echo框架，解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致，记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订，无需重跑整条视频。配套轻量化实时超分模块，支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示，语音内容准确率0.8646，用户偏好多项领先。代码与权重已开源至GitHub。

GitHub 多模态模型发布

推荐理由：长视频生成一直被角色崩塌和龟速生成卡死，JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速，Director Agent 对话式编辑的思路很先进，做 AI 视频的朋友可以直接去 GitHub 开跑。

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

6月4日

21:07

公众号：百度智能云（文心）

全灵（SEELE AI）联合百度智能云推出MoT大模型，一句话生成可玩世界

全灵（SEELE AI）推出自研MoT（Mixture-of-Transformers）多模态大模型，围绕游戏世界训练，模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对，标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo，玩家可在AI生成的城市中移动、跳跃、瞄准、换弹，与NPC互动；内测中的3A Open-World由4D World Model驱动，目标实现真正可玩的开放世界。

智能体多模态行业动态

18:25

公众号：面壁智能（MiniCPM）

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

11:00

公众号：火山引擎

中国美术学院×火山引擎：高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」，通过6个月数据治理，将约3000张国画梳理为7维度结构化标签数据集，一次性标注通过率约95%。采用模型后训练技术，将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型，封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作，几分钟即可完成国画创作。智能体支持文生图、图生图，可集成至小程序、交互大屏，应用于教学、文创开发等场景。

产品更新图像生成多模态

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI 多模态模型发布视频

关联讨论 4 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

00:07

Google Developers Blog（RSS）

在笔记本电脑上运行 Gemma 4 12B：借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行，支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化，通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外，LiteRT-LM CLI 新增 serve 命令，可创建行业兼容的本地端点，驱动完全本地的 AI 工具和智能体。

智能体 Google 产品更新多模态

关联讨论 7 条

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

21:34

Google Blog：AI（RSS）

Google Search 提升二手和复古购物体验的5种方式

Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。

Google 多模态搜索教程/实践

6月2日

01:59

公众号：通义实验室（千问）

同事件精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

同一事件，精选展示《Qwen3.7-Plus：多模态智能体模型发布》

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

01:37

Qwen：Blog Retrieval（API）

精选81

Qwen3.7-Plus：多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus，基于 Qwen3.7 文本骨干，增强视觉语言能力，保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题，融合 GUI 与 CLI 交互，跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3，SWE-Verified 77.7，QwenWorldBench 62.1，GPQA Diamond 90.3，MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布

关联讨论 4 条

推荐理由：Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型，在 ScreenSpot 和浏览器操作上的提升很实在，做自动化的开发者值得上手试试。

01:26

Google Blog：AI（RSS）

谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google 图像生成多模态教程/实践

6月1日

18:21

公众号：腾讯混元

腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架，为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力，并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆，玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿，单日活跃峰值1770万，玩家麦克风开启率75%。

智能体产品更新多模态

13:36

Hugging Face：Blog（RSS）

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 9 条

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 12 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

09:23

公众号：MiniMax（稀宇科技）

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 12 条

5月30日

01:38

Google Blog：AI（RSS）

同事件精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google 多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 2 条

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

17:44

公众号：通义实验室（千问）

精选64

通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

通义实验室发布教程，演示如何在 Android 手机上部署 MCP 感知服务器，使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型（约 1.3GB），摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON，再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据，仅传输语义提取结果。项目已开源，实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由：如果你做Agent总觉得AI对物理世界是瞎子，这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛，不传原始视频只给结构化文字，隐私友好又能被Claude直接调用。

15:43

公众号：腾讯元宝

元宝助手正式入驻QQ浏览器，底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器，搜索栏、划词等AI入口全面升级为元宝助手，底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频，以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用，Mac版本已更新，其他版本逐步放量。

产品更新多模态搜索

08:02

公众号：阶跃星辰（Step）

同事件精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体 MCP/工具多模态开源生态

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

00:06

Google Blog：AI（RSS）

Google I/O 2026 一文速览：12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻，其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google 产品更新多模态推理

关联讨论 1 条

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

20:21

公众号：京东JoyAI

听见京东 618：大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆（3—10秒语音）五大能力，已接入JoyClaw技能商店。覆盖10余种语言和8种方言，支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer（累计服务超7万商家）及AI播客。618期间支撑千万级并发实时交互，为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音

19:58

公众号：龙猫LongCat（美团）

美团&顶会论文分享 | 5大专场，32篇论文解读

2026年，美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录，精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向，既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播，可报名参与。

多模态推理行业动态

17:47

公众号：通义实验室（千问）

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态

5月27日

22:09

Runway：News（网页）

精选73

Runway 推出 Model Context Protocol 服务器

Runway 正式推出 Runway MCP 服务器，允许任何兼容 MCP 的 AI 智能体（如 Claude、ChatGPT、Cursor）在对话界面中直接生成图像与视频，无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型，包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便，通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用，无需单独申请 API 密钥。

MCP/工具产品更新多模态

关联讨论 1 条

推荐理由：Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP，以后做产品图、营销视频不用切窗口，这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。

5月26日

22:34

Runway：News（网页）

精选68

Project Luxo：跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

多模态现象/趋势视频

关联讨论 1 条

推荐理由：Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷，观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑，但一次推广式的成功不等于行业已稳定跨过。

14:21

公众号：火山引擎

网龙×火山引擎：豆包大模型让优质AI课程实现"量产"

网龙与火山引擎达成合作，将底层架构全面上云并率先接入Seedance 2.0 API，依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系，已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一，视频生成模型保障声画同步与角色声线一致，并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程，培训超1万名骨干教师，借助火山引擎全球化部署覆盖190多个国家和地区。

多模态行业动态视频

5月25日

18:49

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选71

<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族，包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类，部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估，提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁的 SingGuard 把安全策略变成了运行时输入，意味着审核规则可以随时改而不必重训模型，这对做内容安全的产品人是真省事，值得跟进。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选68

inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族，版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入，支持文本、图像、图文及多语言场景的查询侧

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：SingGuard把安全策略变成运行时输入，不用再为新规则重新训练模型，这对需要频繁调整审核标准的团队来说是个实用的发布。

15:25

蚂蚁 inclusionAI：GitHub 新仓库

精选67

蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族，提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入，支持文本、图像、图文、多语言及查询/回复侧的安全评估，无需重新训练即可适配不同规则。采用快慢动态推理机制，在低延迟场景下输出紧凑判断，对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由：蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型，换审核规则不用重训，对需要快速适配法规的团队是个真需求。不过生态刚起步，暂时还是小众工具。

5月23日

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。