全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 281 条

全部一手资讯 X 论文

标签「多模态」清除

4月29日周三

08:00Apple Machine Learning Research（RSS）45DSO：用于缓解偏见的直接引导优化

00:37Hugging Face：Blog（RSS）70精选介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

00:06Google Blog：AI（RSS）51庆祝 Google Translate 20 周年：趣闻、技巧与可尝试的新功能

4月28日周二

20:46公众号：可灵AI（快手·视频）41可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元斩获大奖

19:06公众号：昆仑万维（天工）30昆仑万维"4+3战略"落地首季：一季度营收25.7亿元，视频与音乐模型登顶全球第一

08:00Apple Machine Learning Research（RSS）45StereoFoley：从视频生成具有对象感知能力的立体声音频

4月24日周五

14:00公众号：火山引擎49新一代汽车AI解决方案发布，豆包大模型搭载超700万辆车

08:00Apple Machine Learning Research（RSS）48Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

4月23日周四

10:00公众号：阶跃星辰（Step）49官宣！阶跃和千里科技，达成全面战略合作！

00:16Gary Marcus：The Road to AI We Can Trust（RSS）ChatGPT 连胡须与肘部都分不清

00:05公众号：小米 MiMo54Xiaomi MiMo-V2.5 系列大模型开启公测

4月22日周三

21:00公众号：通义实验室（千问）59Qwen3.6-27B 开源发布：270亿稠密参数，编程能力超越前代MoE旗舰

4月17日周五

20:34公众号：阶跃星辰（Step）43坐进极氪8X，感受阶跃大模型

16:48蚂蚁 inclusionAI：GitHub 新仓库56精选inclusionAI发布LLaDA2.0-Uni模型

4月16日周四

10:30公众号：腾讯混元53腾讯混元3D世界模型2.0发布：无缝对接游戏工作流

4月14日周二

18:05公众号：生数科技（Vidu·视频）45生数科技与阿里云达成战略合作，共建"云+AI"全栈生态，加速多模态大模型与世界模型产业落地

4月10日周五

21:30公众号：MiniMax（稀宇科技）30MiniMax Music 2.6：我们想讲四个人的故事

4月9日周四

17:30公众号：通义实验室（千问）56VimRAG：图文视频全模态知识库开源框架

4月7日周二

19:32公众号：蚂蚁百灵（Ling）52Ming-flash-omni：从看图到发文，打通全模态创作闭环

4月2日周四

19:58公众号：龙猫LongCat（美团）53美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

08:05公众号：智谱（GLM）45智谱发布GLM-5V-Turbo多模态Coding基座模型

08:00Hugging Face：Blog（RSS）88精选Welcome Gemma 4：设备端的 Frontier 多模态智能

04:00Qwen：Blog Retrieval（API）Qwen3.6-Plus：迈向真实世界 Agent

00:00智谱：研究（网页内嵌数据）精选GLM-5V-Turbo发布：多模态Coding基座模型

4月1日周三

12:14公众号：可灵AI（快手·视频）16可灵AI清明短片引用户热议：评论区里人人都有"纸手机"

3月31日周二

23:10Hugging Face：Blog（RSS）70精选Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

3月30日周一

21:08公众号：通义实验室（千问）59215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

04:00Qwen：Blog Retrieval（API）精选Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

3月29日周日

22:32Gary Marcus：The Road to AI We Can Trust（RSS）精选当前前沿模型视觉理解的幻象

3月27日周五

21:12公众号：昆仑万维（天工）54昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

3月26日周四

00:01Google DeepMind：Blog（RSS）Lyria 3 Pro：支持更长音轨，扩展至更多平台

00:00Google Blog：AI（RSS）Lyria 3 Pro：在更多 Google 产品中创作更长音轨

00:00Google Blog：AI（RSS）精选基于 Lyria 3 构建：全新音乐生成模型开放预览

00:00Suno：Blog（网页）Suno v5.5：更具表现力，更懂你

3月25日周三

15:58公众号：智谱（GLM）49智谱携手奔驰，多模态大模型"上车"

13:15公众号：昆仑万维（天工）46Mureka V8登顶Artificial Analysis双榜单第一

00:00Google Research：Blog（网页）精选Vibe Coding XR：基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

3月24日周二

15:34公众号：通义实验室（千问）51PrismAudio：声画同频，音效随行

08:00Google Developers Blog（RSS）71精选跳跃即玩：利用Gemini与MediaPipe进行开发

3月23日周一

08:36公众号：MiniMax（稀宇科技）47MiniMax Token Plan：全球首个支持全模态模型的订阅计划

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月29日

08:00

Apple Machine Learning Research（RSS）

45

DSO：用于缓解偏见的直接引导优化

研究团队提出DSO方法，旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时，通过单一标量参数直接、实时地控制偏见缓解程度，实现无需重新训练的动态调整。实验表明，DSO能在偏见指标上实现高达90%的改善，同时将性能损失控制在10%以内，有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究

00:37

Hugging Face：Blog（RSS）

精选70

介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型，这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据，旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中，提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

推荐理由：NVIDIA 把多模态长上下文塞进 Nano 级别模型，文档、音频、视频 Agent 通吃，做端侧多模态应用的团队值得认真看看这个架构思路。

00:06

Google Blog：AI（RSS）

51

庆祝 Google Translate 20 周年：趣闻、技巧与可尝试的新功能

Google Translate 迎来 20 周年，从 2006 年的一项 AI 实验起步，现已支持近 250 种语言。官方分享了 20 条相关趣闻，并介绍了用户可尝试使用的实用技巧与新功能，以展示其多年来的技术演进与服务扩展。

Google 产品更新多模态

4月28日

20:46

公众号：可灵AI（快手·视频）

41

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元斩获大奖

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元并斩获大奖。

多模态行业动态视频

19:06

公众号：昆仑万维（天工）

30

昆仑万维"4+3战略"落地首季：一季度营收25.7亿元，视频与音乐模型登顶全球第一

昆仑万维发布2026年一季度财报，营收25.7亿元，同比增长46%，为“4+3战略”落地首季。公司自研视频模型与音乐模型均登顶全球第一，但正文未披露具体模型名称及版本号。具体营收增长主要来自AI业务驱动，战略聚焦多模态大模型与AI应用生态。

多模态行业动态

08:00

Apple Machine Learning Research（RSS）

45

StereoFoley：从视频生成具有对象感知能力的立体声音频

StereoFoley是一个视频到音频的生成框架，能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像，主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型，在语义准确性上达到了与当前最先进V2A模型相当的性能。

多模态论文/研究

4月24日

14:00

公众号：火山引擎

49

新一代汽车AI解决方案发布，豆包大模型搭载超700万辆车

多模态端侧行业动态

08:00

Apple Machine Learning Research（RSS）

48

Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法，直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作，将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标，高效生成长而真实的运动序列，避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究

4月23日

10:00

公众号：阶跃星辰（Step）

49

官宣！阶跃和千里科技，达成全面战略合作！

多模态端侧行业动态

00:16

Gary Marcus：The Road to AI We Can Trust（RSS）

ChatGPT 连胡须与肘部都分不清

（注：提供的正文内容仅有一句话，缺乏必要的具体信息，如研究数据、性能指标、模型版本或测试结果等，无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。）

OpenAI 多模态大佬观点

00:05

公众号：小米 MiMo

54

Xiaomi MiMo-V2.5 系列大模型开启公测

智能体多模态模型发布

4月22日

21:00

公众号：通义实验室（千问）

59

Qwen3.6-27B 开源发布：270亿稠密参数，编程能力超越前代MoE旗舰

Qwen3.6-27B 开源发布，采用270亿稠密参数，无需MoE路由，部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE，在SWE-bench Verified（77.2）、SWE-bench Pro（53.5）、Terminal-Bench 2.0（59.3）、SkillsBench（48.2）等基准上领先，深度思考能力媲美超大参数模型。原生支持多模态，可处理图像、视频与文本，支持视觉推理、文档理解和视觉问答，具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope，API即将在阿里云百炼上线，兼容OpenAI与Anthropic协议，即时对话可通过Qwen Studio体验。

多模态推理模型发布编码

4月17日

20:34

公众号：阶跃星辰（Step）

43

坐进极氪8X，感受阶跃大模型

阶跃 Step 3.5 Flash 大规模上车极氪8X，深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型：Step 3.5 Flash 作为核心大脑，提供模糊指令理解与多步骤任务规划；语音大模型带来低延迟、更自然的交互；视觉理解模型可感知车外环境并决策，如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。

多模态端侧行业动态

16:48

蚂蚁 inclusionAI：GitHub 新仓库

精选56

inclusionAI发布LLaDA2.0-Uni模型

LLaDA2.0-Uni是一个统一的多模态模型，具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息，实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务，标志着多模态人工智能向更通用、统一的方向演进。

多模态开源生态模型发布

推荐理由：蚂蚁 inclusionAI 推出 LLaDA2.0-Uni，主打理解与生成统一架构，但距发布已过两周且信息极少，建议等官方技术报告出来再决定是否跟进。

4月16日

10:30

公众号：腾讯混元

53

腾讯混元3D世界模型2.0发布：无缝对接游戏工作流

多模态开源生态模型发布

4月14日

18:05

公众号：生数科技（Vidu·视频）

45

生数科技与阿里云达成战略合作，共建"云+AI"全栈生态，加速多模态大模型与世界模型产业落地

生数科技与阿里云签署战略合作协议，双方将共建“云+AI”全栈生态，推动多模态大模型与世界模型的产业落地。

多模态行业动态

4月10日

21:30

公众号：MiniMax（稀宇科技）

30

MiniMax Music 2.6：我们想讲四个人的故事

MiniMax Music 2.6 版本发布，以“四个人的故事”为主题。

多模态模型发布

4月9日

17:30

公众号：通义实验室（千问）

56

VimRAG：图文视频全模态知识库开源框架

VimRAG 是一个开源框架，通过模态统一记忆技术，支持图文视频全模态知识库，告别分模态处理，实现一体化管理。

检索增强多模态开源/仓库

4月7日

19:32

公众号：蚂蚁百灵（Ling）

52

Ming-flash-omni：从看图到发文，打通全模态创作闭环

Ming-flash-omni 模型具备全模态创作能力，能够同时完成照片中路人干扰的识别、自动修图、修图效果自评，并最终生成一段社交媒体推文，实现从视觉理解到内容发布的完整闭环。

多模态模型发布

4月2日

19:58

公众号：龙猫LongCat（美团）

53

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

08:05

公众号：智谱（GLM）

45

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

12:14

公众号：可灵AI（快手·视频）

16

可灵AI清明短片引用户热议：评论区里人人都有"纸手机"

可灵AI生成清明主题视频，被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事，展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作，突出AI在情感表达领域的突破。

多模态教程/实践视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

3月30日

21:08

公众号：通义实验室（千问）

59

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条Qwen：Blog Retrieval（API）

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月29日

22:32

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中，无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷，表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞，指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由：揭示多模态基准测试漏洞，医学AI应用需警惕数据泄露风险

3月27日

21:12

公众号：昆仑万维（天工）

54

昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶，其中包括三款达到世界第一梯队的模型。

多模态模型发布

3月26日

00:01

Google DeepMind：Blog（RSS）

Lyria 3 Pro：支持更长音轨，扩展至更多平台

Lyria 3 Pro 发布，支持生成更长音轨并具备结构感知能力，同时将集成至更多 Google 产品和平台。

DeepMind 产品更新多模态

00:00

Google Blog：AI（RSS）

Lyria 3 Pro：在更多 Google 产品中创作更长音轨

Google 将 Lyria 3 Pro 扩展至更多产品，支持生成更长音轨，并集成至专业人士日常工作和创作工具中。

Google 产品更新多模态

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google 多模态模型发布

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月25日

15:58

公众号：智谱（GLM）

49

智谱携手奔驰，多模态大模型"上车"

多模态端侧行业动态

13:15

公众号：昆仑万维（天工）

46

Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布

00:00

Google Research：Blog（网页）

精选

Vibe Coding XR：基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流，结合 Gemini Canvas 与开源框架 XR Blocks，利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建，支持手势交互与深度感知，可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室，用户可通过捏合等手势操作 3D 对象，快速验证空间交互设计。

Google 产品更新多模态编码

推荐理由：Google推出Vibe Coding XR，用自然语言快速生成可交互的Android XR空间应用。

3月24日

15:34

公众号：通义实验室（千问）

51

PrismAudio：声画同频，音效随行

PrismAudio 由通义实验室（千问）开源发布，定位为“更会思考的AI音效师”，能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频

08:00

Google Developers Blog（RSS）

精选71

跳跃即玩：利用Gemini与MediaPipe进行开发

该工作流通过Gemini Canvas，借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型，采用低延迟的“轻量”模型和稳定的追踪点（如肩部关节点）以确保游戏响应灵敏。最后，流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序，使其能够支持多种多模态输入，从而显著简化了体感控制游戏的开发过程。

Google 多模态教程/实践编码

推荐理由：开发者可快速上手AI游戏开发，优化性能并部署生产应用。

3月23日

08:36

公众号：MiniMax（稀宇科技）

47

MiniMax Token Plan：全球首个支持全模态模型的订阅计划

MiniMax 发布 Token Plan 订阅计划，该计划支持全模态模型，宣称是全球首个覆盖多模态能力的订阅服务。

产品更新多模态

1 2 345 6…8