6月12日

12:34

IT之家（RSS）

2026 第八届北京智源大会上，之江实验室主任、阿里云创始人王坚指出，人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码，具备了区分语言文本与代码文本的能力。他认为，AI 改变程序员工作方式后，所有科学数据都会因 AI 被重新理解，科研人员受到冲击的逻辑与程序员一致。

多模态大佬观点

11:00

HuggingFace Daily Papers（社区热门论文）

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

InterleaveThinker：强化智能体交错生成管线

InterleaveThinker 提出多智能体管线，通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令，使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动，并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward，使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当；在 4-step FLUX.2-klein 推理基准上，WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理

10:34

IT之家（RSS）

精选75

苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局并增加导航栏。新增视觉智能营养识别，用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级，不提供精确卡路里，需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期，可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升，GymKit 扩展至 iPhone，无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由：视觉智能营养识别不能给精确卡路里，但那个“深度加工食品”提醒对普通人很实用，健康App这次更新算得上近年最有用了。

09:27

PixVerse@PixVerse_

PixVerse Canvas 现已上线 Web--你的 AI 视频制作工作空间。不再生成片段。开始制作真正可以交付的视频。规划、优化、交付，一站式完成。转推+关注+回复=300积分私信发送（仅72小时）。

产品更新多模态

08:06

karminski-牙医@karminski3

Google 发布 Diffusion Gemma，模型大小 26B，激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090，5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%，tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google 多模态推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

MVEB：大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准，涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导：基于MLLM的嵌入在分类、聚类、对分类和问答上领先；多模态绑定方法在检索和零样本分类上领先；缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明，音频的贡献取决于数据标注来源：标签来自双模态时音频有帮助，仅来自视觉时则有害，差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池，在降低评估成本的同时保持任务多样性，并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub 多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RepFusion：利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型（MLLM）作为噪声表示编码器，将其输出作为扩散Transformer的条件信号，用于文本到图像生成的去噪过程。在类似推理预算的对比中，RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明，MLLM为降噪视觉表示提供强先验，通过条件于演化的噪声表示，可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型（MLLM）的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例，每个实例都带有结构化的推理追踪，分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预，可测量修正特定阶段对最终答案的影响。实验表明，追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台，并已公开提供。

arXiv GitHub 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本；将仓库结构视觉图作为文本界面的补充模态，可使输入 token 消耗降低最多 26%，同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路，用于下一代编码智能体。

智能体 arXiv 多模态编码

08:00

HuggingFace Daily Papers（社区热门论文）

VISTA：基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时，单视图采样会导致困难实例全失败、简单实例全成功，无法产生有效相对优势。VISTA提出GRPO训练框架，从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点，使用优势加权损失优化Oracle答案，不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上，VISTA一致提升精度：ScreenSpot-Pro上，Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

07:38

🚨 AI News | TestingCatalog@testingcatalog

GOOGLE 🔥：Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能！发布后又更新了吗？👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google 产品更新多模态视频

01:37

AYi@AYi_AInotes

QuantMind：量化金融知识处理框架开源（MIT协议）

一群AI研究员开源了量化金融知识处理框架QuantMind（MIT协议）。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱，支持多模态解析（表格、公式、图表）及自然语言多跳推理，可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub 检索增强多模态开源/仓库

01:20

Logan Kilpatrick@OfficialLoganK

同事件精选81

Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA ：）很高兴很快能将这一能力通过 API 提供给开发者！

Google 图像生成多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：视频生成正式进入全模态一体时代，Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里，API 很快上线，做视频工具的可以提前琢磨对手在哪了。

00:52

TechCrunch：AI（RSS）

Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐

Deezer 推出了一款工具，能够扫描 Spotify、Apple Music 及其他平台的播放列表，识别其中由 AI 生成的音乐。

产品更新多模态

00:26

The Decoder：AI News（RSS）

Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐

Deezer 推出一款免费 AI 音乐检测器，用户可在任何主流流媒体平台上检查自己的播放列表中是否混入了 AI 生成的歌曲。

产品更新多模态

6月11日

23:44

Google DeepMind@GoogleDeepMind

我们正与@Palmeiras合作，他们是第一家有意义地基于TacticAI构建的足球俱乐部：我们的AI系统可以模拟场上情景并提前最多8秒预测开放比赛动态。⚽

Google 多模态行业动态

22:59

HuggingFace Daily Papers（社区热门论文）

Reroute：面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型（VLM）将图像投影为大量视觉token，导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式，但token重要性随解码器深度变化，早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块，将永久移除替换为可恢复路由：被延迟的token绕过当前解码阶段，在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明，Reroute在激进token压缩下提升了grounding能力，同时保持通用VQA性能。

多模态推理论文/研究

22:52

TechCrunch：AI（RSS）

DoorDash 新 AI 聊天机器人 Ask DoorDash 支持通过提示词和照片下单

DoorDash 推出名为 Ask DoorDash 的 AI 聊天机器人，用户可以用自己的话搜索应用，或通过提示词和照片直接下单，无需逐页浏览餐厅和商店来构建购物车。

产品更新多模态搜索

20:59

StepFun@StepFun_ai

阶跃星辰旗下多模态模型 Step 3.7 Flash 现已登陆 AI 平台 ZenMux，提供一个月免费试用。该模型专为快速迭代、编码、文档分析和多语言任务打造，面向开发者开放体验。

ZenMux: Curious how StepFun 3.7 Flash stacks up against the models in your daily workflow? Now's a good time to find out 👀 We'r...

多模态行业动态

18:59

HuggingFace Daily Papers（社区热门论文）

ART：基于艺术强化训练的多模态大语言模型微调方法

ART（Art-based Reinforcement Training）是一种参数高效微调方法，通过仅优化冻结多模态大语言模型的原始视觉输入（像素阵列）来注入信息，无需修改预编译计算图，从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标，优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上，ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究

17:31

IT之家（RSS）

WPS 笔记发布：AI 原生多模态，重新定义个人知识管理

6月5日，金山办公发布AI原生多模态笔记产品WPS笔记，摒弃传统文件夹，采用多级AI自动标签组织内容。支持语音、图片、文字、网页等录入；语音转写具备AI实时纠正和声纹区分发言人功能，图片可提取公式并支持LaTeX编辑及梯形校正。全域多模态检索可同时搜索文字、图片、音频。内置WPS灵犀助手，能完成整理、摘要、润色、创建任务清单等操作，支持自定义Skill和记忆设置。开放外部MCP接入，允许Cursor、Claude等第三方AI应用直接读取笔记。

MCP/工具多模态教程/实践

14:52

宝玉@dotey

同事件精选77

baoyu-design skill 更新：支持导入 Figma 本地文件重建设计系统

baoyu-design skill 更新，现已支持导入 Figma 本地文件（.fig），可在本地重建设计系统，效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助（Token 不够用）。安装后提供 Figma 文件路径即可导入为 Design System，后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System，保留了 Claude Design 原始的导入和编译方式，用户可通过提问选择设计系统。安装命令：npx skills add JimLiu/baoyu-design。项目地址：https://github.com/jimliu/baoyu-design。

宝玉: baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...

GitHub 多模态开源/仓库

同一事件，精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》

推荐理由：宝玉把 baoyu-design 调教得越来越像 Claude Design 在线版，现在能直接吃 Figma 文件生成设计系统，前端和设计同学可以省掉大量重复劳动。

14:04

Alibaba Cloud@alibaba_cloud

阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频，以墨西哥文化为主题，融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术，从古老圣地到现代创新枢纽，展现AI如何连接过去与未来。视频旨在展示模型的创意能力，并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频

13:58

HuggingFace Daily Papers（社区热门论文）

Reason， then Re-reason：跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题，现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe：推理阶段MLLM从原始视频形成空间假设；重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线，从预测3D几何渲染抬高斜视的全景新视角，保留MLLM原生视频接口。在VSI-Bench和STI-Bench上，ReRe显著提升开源MLLM性能，匹敌专有模型最优水平。

多模态推理论文/研究

12:21

Elon Musk@elonmusk

《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景，该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI 产品更新多模态视频

10:58

HuggingFace Daily Papers（社区热门论文）

World Pilot：用世界动作先验引导视觉-语言-动作模型

World Pilot 是一种视觉-语言-动作（VLA）框架，通过世界动作模型（WAM）提供场景演进隐变量与预期轨迹两种先验，分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上，总成功率达 84.7%，并在四个真实机器人操作任务中取得最高成功率，在视角、几何、变形状态和位姿变化场景下优势最显著。

具身智能多模态论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

世界模型自蒸馏：训练世界模型解决通用任务

提出结合自蒸馏与强化学习的可扩展框架，激发预训练视频扩散模型（Demonstrator）的任务解决能力。给定未标注场景图像，视觉语言模型（VLM）生成候选任务及详细步骤，条件化Demonstrator生成视频；通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor，无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上，Executor在VLM评估协议下超越Demonstrator，并有效迁移至机器人任务。

具身智能多模态论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理（MCR）提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程，将长视频理解为证据积累与验证。为提升效率，引入多模态多头潜在注意力（M²LA），一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能，并实例化为带有检索工具的视频智能体，展现基于证据的鲁棒行为。

智能体多模态推理视频

10:30

IT之家（RSS）

初探苹果 iOS 27 版备忘录：新增分割线、集成 Siri AI、升级图乐园等

苹果 iOS 27 版备忘录新增分割线格式工具，用户可在编辑菜单中插入。深度整合 Siri AI，支持将回答保存为新笔记或添加到已有笔记，并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示，编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级，支持照片级真实风格，生成图像自动嵌入 SynthID 水印；Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计，共享文件夹列表新增蓝色图标标识。

产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

自我进化的视觉提问者（Self-Evolving Visual Questioner）

视觉语言模型通常训练为被动回答者，主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架：VLM自身作为提议者和过滤器，生成更难、信息更丰富、更视觉中心的问题，同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议，从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界，且自我进化的提问者仍保持甚至增强回答性能。

多模态开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

World Tracing：超越可见面的生成式像素对齐几何表示

World Tracing 是一种生成式像素对齐几何表示，为每个输入像素预测有序的相机空间3D点栈，第一层对应可见表面，后续层表示从前到后的遮挡表面交点。该表示通过世界追踪扩散Transformer（WT-DiT）实例化，将多个几何层视为独立去噪token，经分解注意力和全局注意力耦合。采用像素空间流匹配和混合噪声调度训练，平衡可见表面重建与遮挡几何生成。在目标、场景和动态基准上，World Tracing在可见表面重建和完整几何生成方面均优于深度预测器和图像转3D生成器，并保持2D-3D对应，支持文本驱动的3D场景编辑、几何条件新视角视频合成及与纹理网格生成器的无缝集成。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG

针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限，研究者提出V-RAGBench基准，包含(query, evidence chunk, answer)三元组，支持检索与生成的解耦评估；同时提出CARVE方法，通过并行运行多配置检索器并对每个chunk进行自适应重排序，为每个chunk选择最优配置，使生成阶段交织不同配置的证据块。在长视频场景下，CARVE在八个近期VideoRAG基线方法中取得最优结果。

检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据，难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示，支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练，采用多模态扩散Transformer，协调角色、动作和相机。同时设计层级提示扩展智能体，通过理解信号关系系统描述相机运动和视觉内容，集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Avatar V：扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架，通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算，同时重现静态身份和动态行为（如说话节奏、微表情）。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段，经 flow matching 预训练、个性微调、两阶段蒸馏（>10 倍加速）和 RLHF 对齐等五阶段训练，部署于数千 GPU。可生成无限时长 1080p 视频，在跨场景基准上保持最优的身份保留、唇同步和生成质量，全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究

06:41

Orange AI@oran_ge

Google 推出 Gemini 3.5 Live Translate，支持 70 多种语言边听边译，保留说话人语调、节奏和音高，延迟仅几秒，自动降噪。Google Translate App 新增听筒模式，开发者可通过 API 调用，支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google 产品更新多模态语音

04:23

Simon Willison 博客

DiffusionGemma 发布：Google 开源 26B 参数扩散模型，NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型，模型名为 google/diffusiongemma-26B-A4B-it，采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒，速度至少达到 500 token/s。

Google 多模态开源生态模型发布