4月3日

08:00

HuggingFace Daily Papers（社区热门论文）

OmniGUI 是一个步级基准，专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入，包括静态图像、同步音频和视频片段，数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序，并标注了多模态依赖级别。评估显示，基础多模态模型在处理需要同步时序和听觉信号的任务时，动作预测性能显著下降。消融实验指出，跨模态干扰是主要瓶颈，尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。

智能体多模态论文/研究

01:09

Artificial Analysis@ArtificialAnlys

精选

Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型，支持文本、图像及视频输入。31B（密集架构）与26B A4B（MoE架构）拥有256k上下文窗口，可在单张H100运行；另两款较小模型支持128k上下文。GPQA Diamond测试中，Gemma 4 31B（Reasoning）获85.7%，仅次于Qwen3.5 27B，但输出token仅约1.2M，效率更优；26B A4B（Reasoning）得分79.2%，超越gpt-oss-120B。

DeepMind Google 多模态开源生态

关联讨论 2 条

推荐理由：Google发布多模态开源模型Gemma 4，单卡H100可跑且科学推理能力突出

4月2日

22:29

Satya Nadella@satyanadella

精选

MAI 模型家族正式登陆 Foundry 平台，推出三款新模型：MAI-Transcribe-1（支持25种语言的最准确转录模型）、MAI-Voice-1（自然语音生成）和 MAI-Image-2（最强图像生成模型）。开发者现可通过该平台直接调用。

Microsoft 多模态模型发布语音

推荐理由：Microsoft CEO 亲自发布 MAI 系列三大新模型，覆盖语音转录、合成与图像生成

19:58

公众号：龙猫LongCat（美团）

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

13:03

karminski-牙医@karminski3

智谱GLM-5V-Turbo实测：多模态补强但代码生成偏弱

智谱发布多模态模型 GLM-5V-Turbo，弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准，但前端代码生成能力一般。在网页克隆测试中，面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景，模型将设计图转换为精确代码的表现仍有提升空间。

多模态模型发布编码

08:05

公众号：智谱（GLM）

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:19

Deedy@deedydas

Google Maps 现有技术已能将全球街景图像转化为可玩视频游戏，令人震撼。未来还能借此回顾100年前的纽约等城市风貌，实现穿越时空的探索体验。

Google 多模态现象/趋势

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

12:14

公众号：可灵AI（快手·视频）

可灵AI清明短片引用户热议：评论区里人人都有"纸手机"

可灵AI生成清明主题视频，被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事，展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作，突出AI在情感表达领域的突破。

多模态教程/实践视频

11:20

Deedy@deedydas

Gaussian splats：当今除AI外最激动人心的软件技术

Gaussian splats是新兴的实时3D渲染技术，可在iPhone上实现自由视角的沉浸式场景浏览。该技术用高斯分布编码场景结构与外观，相比NeRFs极大提升渲染速度。当前突破包括单图生成（Apple ML SHARP）、动态场景捕捉（4DV ai）及生成模型填补未拍摄区域。未来将成为Vision Pro等VR设备的核心娱乐格式，并与世界模型结合实现城市级漫游或游戏化交互，但仍需解决创建效率、存储传输及视觉真实感等挑战。

多模态现象/趋势视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

3月30日

21:08

公众号：通义实验室（千问）

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月29日

22:32

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中，无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷，表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞，指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由：揭示多模态基准测试漏洞，医学AI应用需警惕数据泄露风险

3月27日