全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 281 条

全部一手资讯 X 论文

标签「多模态」清除

1月30日周五

01:01Google DeepMind：Blog（RSS）Project Genie：探索无限交互世界

1月27日周二

19:11公众号：月之暗面（Kimi）61精选Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

1月26日周一

04:00Qwen：Blog Retrieval（API）将 Qwen3-Max-Thinking 推向极限

1月16日周五

18:39Google DeepMind：Blog（RSS）D4RT：教AI看见四维世界

18:00公众号：蚂蚁百灵（Ling）36百灵大模型Ling Studio正式发布，支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

1月12日周一

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang EPD 分离架构：视觉语言模型的弹性编码器扩展

1月8日周四

04:00Qwen：Blog Retrieval（API）Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

1月6日周二

08:00xAI：News（网页）xAI 完成 200 亿美元 E 轮融资

12月23日周二

13:08Qwen：Blog Retrieval（API）Qwen-Image-Edit-2511：提升一致性

00:00Qwen：Blog Retrieval（API）Qwen3-TTS 升级：支持语音克隆和语音设计！

12月19日周五

12:47公众号：豆包（字节）17豆包可以直接生成有声视频了

12月18日周四

18:00公众号：小红书技术（dots.llm）42NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

16:11公众号：豆包（字节）53豆包大模型1.8发布，Seedance模型同步升级

12月17日周三

00:00Mistral AI：News（网页）55Mistral OCR 3 发布

12月9日周二

18:06公众号：蚂蚁百灵（Ling）31Ming-Flash-Omni 全模态模型发布：视觉、语音、图像、文本理解与生成全面领先

12月8日周一

00:00智谱：研究（网页内嵌数据）精选GLM-4.6V：支持原生工具调用的开源多模态模型

12月4日周四

18:00公众号：小红书技术（dots.llm）42AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

12月2日周二

00:00Mistral AI：News（网页）68Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

11月20日周四

23:05Google DeepMind：Blog（RSS）精选Google DeepMind 发布 Nano Banana Pro 图像生成模型

11月14日周五

16:06蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

11月11日周二

19:49Google DeepMind：Blog（RSS）教 AI 像我们一样看世界

00:50Google DeepMind：Blog（RSS）AI 如何为北爱尔兰教师赢回时间

10月26日周日

02:02Google DeepMind：Blog（RSS）精选MedGemma：健康 AI 开发领域最强的开源多模态模型

01:34Google DeepMind：Blog（RSS）精选Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

01:27Google DeepMind：Blog（RSS）《ANCESTRA》幕后：Veo 与真人实景拍摄相结合

10月25日周六

03:06Google DeepMind：Blog（RSS）AlphaEarth Foundations 以前所未有的细节绘制地球地图

10月24日周五

11:17Google DeepMind：Blog（RSS）使用 Backstory 探索网络图片背景

10:21Google DeepMind：Blog（RSS）利用人工智能深度感知宇宙

08:48美团 LongCat：HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni

02:48Google DeepMind：Blog（RSS）Gemini 图像编辑功能迎来重大升级

02:40Google DeepMind：Blog（RSS）精选Gemini 2.5 Computer Use 模型发布

10月23日周四

17:42美团 LongCat：HuggingFace 新模型美团 LongCat 发布 Flash-Omni 模型

10月22日周三

00:00字节 Seed：Research Papers（网页内嵌数据）Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

10月15日周三

08:00Anthropic：Transformer Circuits（可解释性研究）83精选Circuits 更新 - 2025年10月

9月30日周二

19:36蚂蚁 inclusionAI：GitHub 新仓库51inclusionAI/Ming-UniVision

9月25日周四

00:00Suno：Blog（网页）Suno Studio 正式发布

9月19日周五

09:10公众号：小米 MiMo54小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

8月26日周二

08:00OpenRouter：Announcements（RSS）49OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

8月15日周五

19:57蚂蚁 inclusionAI：GitHub 新仓库58精选inclusionAI/UI-Venus

8月8日周五

20:11公众号：小米 MiMo47小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh：小米推出了 MiMo-VL-7B-2508 多模态模型。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

1月30日

01:01

Google DeepMind：Blog（RSS）

Project Genie：探索无限交互世界

Google 向美国 AI Ultra 订阅用户开放实验性原型 Project Genie 试用，支持实时创建并探索无限生成的交互式世界。

DeepMind Google 产品更新多模态

1月27日

19:11

公众号：月之暗面（Kimi）

精选61

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

智能体多模态开源/仓库模型发布

推荐理由：Kimi K2.5把视觉理解和Agent集群能力打包开源，国内模型里比较早做这个组合的，虽然参数规模争议不小，但对想搭多模态Agent的团队是个可用的起点。

1月26日

04:00

Qwen：Blog Retrieval（API）

将 Qwen3-Max-Thinking 推向极限

Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 等全面功能，支持多模态 AI 应用。

产品更新多模态

1月16日

18:39

Google DeepMind：Blog（RSS）

D4RT：教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪，速度较先前方法提升最高达300倍，为四维计算机视觉领域提供高效解决方案。

DeepMind Google 多模态视频

18:00

公众号：蚂蚁百灵（Ling）

36

百灵大模型Ling Studio正式发布，支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

蚂蚁百灵推出Ling Studio，这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T（高速首字响应与快速回答）、Ring-1T（高效稳定的复杂推理）以及Ming-flash-omni-Preview（图片识别与音频识别等多模态能力）。平台支持灵活配置模型参数与系统提示词、原生工具调用（含联网搜索）及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。

MCP/工具产品更新多模态推理

1月12日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang EPD 分离架构：视觉语言模型的弹性编码器扩展

SGLang推出EPD（Encoder-Prefill-Decode）分离架构，将视觉编码与语言处理解耦，支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离，支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明，在图像密集型场景（如多图输入）且1 QPS负载下，首token生成时间（TTFT）较同机部署降低约6–8倍；但在图像轻量场景中，网络开销可能导致性能下降。

多模态开源/仓库部署/工程

1月8日

04:00

Qwen：Blog Retrieval（API）

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker，平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布

1月6日

08:00

xAI：News（网页）

xAI 完成 200 亿美元 E 轮融资

xAI 完成 200 亿美元 E 轮融资，投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户，运营超 100 万 H100 GPU 等效算力的 Colossus 超算，正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。

智能体 xAI 多模态行业动态

12月23日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Edit-2511：提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 升级：支持语音克隆和语音设计！

Qwen3-TTS 新增语音克隆与语音设计能力，Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音

12月19日

12:47

公众号：豆包（字节）

17

豆包可以直接生成有声视频了

产品更新多模态

12月18日

18:00

公众号：小红书技术（dots.llm）

42

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

16:11

公众号：豆包（字节）

53

豆包大模型1.8发布，Seedance模型同步升级

字节跳动发布豆包大模型1.8版本，同步升级Seedance模型。

多模态模型发布

12月17日

00:00

Mistral AI：News（网页）

55

Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3，这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中，该模型的整体胜率达到 74%，超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型，其定价为行业领先的每 1,000 页 2 美元（通过 Batch API 可享 50% 折扣，即 1 美元）。开发者可通过 API（模型标识符 mistral-ocr-2512）进行集成，其输出为包含 HTML 表格标签的 markdown 格式，便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布

12月9日

18:06

公众号：蚂蚁百灵（Ling）

31

Ming-Flash-Omni 全模态模型发布：视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力，覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出，标志着全模态 AI 的重要进展。

多模态教程/实践

12月8日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.6V：支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型，含106B-A12B基础版与9B轻量版Flash，支持128k tokens上下文。首次原生集成Function Call能力，支持图像、截图直接作为工具参数，并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力，适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体 MCP/工具多模态模型发布

推荐理由：智谱开源 GLM-4.6V，原生支持工具调用的多模态 Agent 底座

12月4日

18:00

公众号：小红书技术（dots.llm）

42

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

12月2日

00:00

Mistral AI：News（网页）

68

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

11月20日

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMind Google 图像生成多模态

关联讨论 2 条Google DeepMind：Blog（RSS）Ethan Mollick：One Useful Thing（RSS）

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

11月11日

19:49

Google DeepMind：Blog（RSS）

教 AI 像我们一样看世界

新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异，旨在通过理解这些差异，让 AI 学会像人类一样观察和理解视觉信息。

DeepMind 多模态论文/研究

00:50

Google DeepMind：Blog（RSS）

AI 如何为北爱尔兰教师赢回时间

北爱尔兰教育管理局 C2k initiative 完成六个月试点，发现将 Gemini 等生成式 AI 工具融入教学，可为参与教师平均每周节省 10 小时工作时间。

Google 多模态现象/趋势

10月26日

02:02

Google DeepMind：Blog（RSS）

精选

MedGemma：健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型，专为健康 AI 开发设计。作为该系列迄今最强的开源版本，新模型具备更强大的医疗场景理解能力，为开发者提供先进的医疗人工智能技术支持，助力构建更精准的健康医疗解决方案。

DeepMind 多模态开源生态模型发布

推荐理由：DeepMind发布最强开放医疗多模态模型，支持开发者微调构建健康AI应用

01:34

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览，达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出，支持 100 万 token 超长上下文和多模态能力。

Google 多模态模型发布端侧

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google轻量模型Gemini 2.5 Flash-Lite正式版发布，百万上下文多模态兼顾成本效益

01:27

Google DeepMind：Blog（RSS）

《ANCESTRA》幕后：Veo 与真人实景拍摄相结合

与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作，采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。

DeepMind Google 产品更新多模态

10月25日

03:06

Google DeepMind：Blog（RSS）

AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据，生成统一数据表示，以前所未有的精度革新全球测绘与监测。

DeepMind 多模态数据/训练模型发布

10月24日

11:17

Google DeepMind：Blog（RSS）

使用 Backstory 探索网络图片背景

实验性 AI 工具 Backstory 发布，支持查询网络图片的背景与原始出处，帮助用户追溯图像来源。

DeepMind Google 产品更新多模态

10:21

Google DeepMind：Blog（RSS）

利用人工智能深度感知宇宙

利用人工智能技术，科学家能够从海量宇宙数据中提取深层信息，突破传统观测局限，揭示隐藏规律，从而以前所未有的深度感知和理解宇宙，持续拓展人类认知边界。

DeepMind Google 多模态数据/训练

08:48

美团 LongCat：HuggingFace 新模型

精选

美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni，采用5600亿参数MoE架构（激活270亿），支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家，配备轻量级编解码器及分块特征交错机制，通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro，在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face 多模态模型发布语音

关联讨论 1 条美团 LongCat：HuggingFace 新模型

推荐理由：美团开源 560B 参数多模态模型，27B 激活即可实现实时音视频交互

02:48

Google DeepMind：Blog（RSS）

Gemini 图像编辑功能迎来重大升级

Gemini 应用原生图像编辑功能迎来重大升级，用户现可通过更新后的工具以全新方式变换图像，获得更强大的创意编辑能力。

Google 产品更新图像生成多模态

02:40

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建，专门用于驱动能与用户界面交互的 agent，现已通过 API 以预览版形式提供。

智能体 DeepMind Google 多模态

推荐理由：Google 发布 Gemini 2.5 Computer Use 模型，支持 Agent 自主操作图形界面

10月23日

17:42

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 Flash-Omni 模型

美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目，致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，打破技术壁垒，但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。

Hugging Face 多模态开源生态模型发布

10月22日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产，可直接集成至物理引擎用于机器人操作与仿真训练，无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题，并支持将物体组合为连贯场景，实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究

10月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现，从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征，能够识别ASCII艺术和SVG代码中编码的语义概念，如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境，例如，SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导，可以对应修改文本艺术的语义，例如将ASCII表情从皱眉转为微笑，或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向，会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic 多模态推理论文/研究

推荐理由：为AI可解释性研究提供新实验方法，启发跨模态模型设计。

9月30日

19:36

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器，旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内，通过连续化的表示来桥接两类不同性质的视觉任务，有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布

9月25日

00:00

Suno：Blog（网页）

Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio，将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体（人声、鼓点、合成器等），提供多轨时间线编辑、BPM 和音高调整等专业控制，可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者，桌面版现已向 Premier 用户开放。

产品更新多模态语音

9月19日

09:10

公众号：小米 MiMo

54

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，被定位为语音开源领域的“LLaMA 时刻”，对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音

8月26日

08:00

OpenRouter：Announcements（RSS）

49

OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已上线 Gemini 2.5 Flash Image Preview，这是该平台首个图像生成模型，支持 SOTA 图像生成、角色一致性以及多图像输出。

Google 产品更新图像生成多模态

8月15日

19:57

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体，仅以屏幕截图作为输入，即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口，直接通过视觉信息理解界面结构，实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互，提升了跨平台任务执行的通用性与可靠性。

智能体 GitHub 多模态开源/仓库

推荐理由：蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索，代码开源可直接用，做 GUI 自动化的值得看看底层怎么实现元素定位和导航。

8月8日

20:11

公众号：小米 MiMo

47

小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh：小米推出了 MiMo-VL-7B-2508 多模态模型。

多模态推理模型发布

1…4 567 8