4月10日

21:30

公众号：MiniMax（稀宇科技）

MiniMax Music 2.6：我们想讲四个人的故事

MiniMax Music 2.6 版本发布，以“四个人的故事”为主题。

多模态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

层次化SVG分词：面向可缩放矢量图形建模的紧凑视觉程序学习

针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题，本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token，并压缩命令-参数组为几何约束的段token，同时引入Hierarchical Mean-Noise初始化策略注入数值先验，结合课程训练逐步提升程序复杂度。实验表明，HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TAIHRI：面向近距离人机交互的任务感知3D人体关键点定位

腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI，突破传统全身重建范式，实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间，结合2D关键点推理与下一token预测机制，在自我中心相机坐标系下精准定位关键身体部位。实验表明，TAIHRI在任务关键身体部位估计精度上显著优于传统方法，并支持自然语言控制与全局人体网格重建等下游任务，相关代码已开源。

具身智能多模态论文/研究

4月9日

17:30

公众号：通义实验室（千问）

VimRAG：图文视频全模态知识库开源框架

VimRAG 是一个开源框架，通过模态统一记忆技术，支持图文视频全模态知识库，告别分模态处理，实现一体化管理。

检索增强多模态开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

元学习上下文学习实现免训练跨受试者脑解码

研究团队提出一种元优化的fMRI语义视觉解码方法，通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件，即可快速推断新受试者的独特神经编码模式，并采用分层反演策略完成解码。实验表明，无需重新训练、微调、解剖对齐或刺激重叠，即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力，为构建非侵入式脑解码通用基础模型奠定关键基础。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Uni-ViGU：基于扩散式视频生成器统一视频生成与理解

Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解，反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法，在单一过程中对视频进行连续流匹配、对文本进行离散流匹配；引入模态驱动的MoE架构，以轻量级层增强Transformer实现文本生成；并通过双向训练机制（知识召回与能力细化两阶段）将生成知识迁移至理解任务。实验表明，该模型在视频生成与理解任务上均达到竞争性性能，验证了以生成为中心的架构路径可行性。

多模态视频论文/研究

4月8日

08:00

HuggingFace Daily Papers（社区热门论文）

MoZoo：释放扩散模型在动物毛发与肌肉模拟中的能力

MoZoo是一个生成式动力学求解器，能绕过传统精炼流程，从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE，通过基于角色的索引重映射同步运动对齐；同时引入非对称解耦注意力机制，强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题，提出了MoZoo-Data合成到真实的流水线，并构建了包含120对网格-视频的评测基准MoZooBench。实验表明，MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟，并保持了优异的时间与结构一致性。

图像生成多模态数据/训练论文/研究

4月7日

19:32

公众号：蚂蚁百灵（Ling）

Ming-flash-omni：从看图到发文，打通全模态创作闭环

Ming-flash-omni 模型具备全模态创作能力，能够同时完成照片中路人干扰的识别、自动修图、修图效果自评，并最终生成一段社交媒体推文，实现从视觉理解到内容发布的完整闭环。

多模态模型发布

4月3日

08:00

HuggingFace Daily Papers（社区热门论文）

OmniGUI：全模态智能手机环境中的GUI代理基准测试

OmniGUI 是一个步级基准，专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入，包括静态图像、同步音频和视频片段，数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序，并标注了多模态依赖级别。评估显示，基础多模态模型在处理需要同步时序和听觉信号的任务时，动作预测性能显著下降。消融实验指出，跨模态干扰是主要瓶颈，尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。

智能体多模态论文/研究

4月2日

19:58

公众号：龙猫LongCat（美团）

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

08:05

公众号：智谱（GLM）

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

12:14

公众号：可灵AI（快手·视频）

可灵AI清明短片引用户热议：评论区里人人都有"纸手机"

可灵AI生成清明主题视频，被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事，展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作，突出AI在情感表达领域的突破。

多模态教程/实践视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

3月30日

21:08

公众号：通义实验室（千问）

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月29日

22:32

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中，无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷，表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞，指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由：揭示多模态基准测试漏洞，医学AI应用需警惕数据泄露风险

3月27日

21:12

公众号：昆仑万维（天工）

昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶，其中包括三款达到世界第一梯队的模型。

多模态模型发布

3月26日

00:01

Google DeepMind：Blog（RSS）

Lyria 3 Pro：支持更长音轨，扩展至更多平台

Lyria 3 Pro 发布，支持生成更长音轨并具备结构感知能力，同时将集成至更多 Google 产品和平台。

DeepMind 产品更新多模态

00:00

Google Blog：AI（RSS）

Lyria 3 Pro：在更多 Google 产品中创作更长音轨

Google 将 Lyria 3 Pro 扩展至更多产品，支持生成更长音轨，并集成至专业人士日常工作和创作工具中。

Google 产品更新多模态

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google 多模态模型发布

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月25日

15:58

公众号：智谱（GLM）

智谱携手奔驰，多模态大模型"上车"

多模态端侧行业动态

13:15

公众号：昆仑万维（天工）

Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Realiz3D：通过领域感知学习实现照片级真实的3D生成

Realiz3D是一个轻量级扩散模型训练框架，旨在解决3D生成中因使用合成数据微调预训练模型而导致的控制信号与合成外观不当关联问题，从而避免真实性下降。该方法通过引入协变量和小型残差适配器，将视觉领域（真实或合成）与其他控制信号（如几何、材质和视角）解耦，使模型在应用精确控制时仍能保持照片级真实感。基于对扩散模型不同层和去噪步骤作用的洞察，框架提出了新的训练与推理策略，增强了控制向真实领域的可迁移性。实验表明，在文本到多视图生成和3D输入纹理化等任务中，Realiz3D能同时保证3D一致性与高真实感，有效克服了领域差距带来的挑战。

图像生成多模态论文/研究

00:00

Google Research：Blog（网页）

精选

Vibe Coding XR：基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流，结合 Gemini Canvas 与开源框架 XR Blocks，利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建，支持手势交互与深度感知，可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室，用户可通过捏合等手势操作 3D 对象，快速验证空间交互设计。

Google 产品更新多模态编码

推荐理由：Google推出Vibe Coding XR，用自然语言快速生成可交互的Android XR空间应用。

3月24日

15:34

公众号：通义实验室（千问）

PrismAudio：声画同频，音效随行

PrismAudio 由通义实验室（千问）开源发布，定位为“更会思考的AI音效师”，能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频

08:00

Google Developers Blog（RSS）

精选71

跳跃即玩：利用Gemini与MediaPipe进行开发

该工作流通过Gemini Canvas，借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型，采用低延迟的“轻量”模型和稳定的追踪点（如肩部关节点）以确保游戏响应灵敏。最后，流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序，使其能够支持多种多模态输入，从而显著简化了体感控制游戏的开发过程。

Google 多模态教程/实践编码

推荐理由：开发者可快速上手AI游戏开发，优化性能并部署生产应用。

3月23日

08:36

公众号：MiniMax（稀宇科技）

MiniMax Token Plan：全球首个支持全模态模型的订阅计划

MiniMax 发布 Token Plan 订阅计划，该计划支持全模态模型，宣称是全球首个覆盖多模态能力的订阅服务。

产品更新多模态

3月20日

13:32

公众号：生数科技（Vidu·视频）

生数科技：通用世界模型是连接数字世界与物理世界的桥梁

生数科技在公众号推文中指出，通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点，未提供更多细节。

多模态现象/趋势视频

08:00

HuggingFace Daily Papers（社区热门论文）

PersonaVLM：面向长期个性化的多模态大语言模型

PersonaVLM 是一个支持长期个性化的多模态智能体框架，具备记忆提取、多轮推理和响应对齐三大核心能力，可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准，涵盖 7 个维度与 14 项细粒度任务。实验表明，在 128k 上下文下，该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%，并超越 GPT-4o 达 5.2% 和 2.0%。

智能体多模态论文/研究

3月19日

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由：阿里 Qwen3.5-Max 预览版上线 Arena，支持多模态理解与工具调用

00:48

公众号：小米 MiMo

Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

多模态模型发布语音

00:45

公众号：小米 MiMo

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

多模态模型发布语音

00:25

公众号：小米 MiMo

Xiaomi MiMo-V2-Omni 发布：看得清，听得懂，能动手的全模态 Agent 基座

智能体多模态模型发布

3月18日

08:00

HuggingFace Daily Papers（社区热门论文）

SPRITE：从静态设计稿到引擎就绪的游戏UI

研究团队推出 SPRITE 系统，可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型（VLMs）与结构化YAML中间表示，专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题，能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证，SPRITE 显著简化了从美术设计到技术实现的流程，通过自动化繁琐编码工作支持快速引擎内迭代。

arXiv 多模态编码论文/研究

3月17日

20:33

Hugging Face：Blog（RSS）

精选83

Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型，使用专有数据混合进行训练，专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构，在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量，在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中，性能从基线的35.1%提升至80.5%，在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体 Hugging Face 多模态模型发布

推荐理由：高效推理的计算机使用代理模型，适合生产部署，开发者可直接试用。

00:00

Google Research：Blog（网页）

Google Research 在 The Check Up 分享：从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导；乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症；多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试，协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者，糖尿病视网膜病变筛查模型已服务超 100 万例，AI 正从实验室走向真实临床场景。

智能体 DeepMind Google 产品更新