Mistral AI 发布 Mistral OCR 3，这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中，该模型的整体胜率达到 74%，超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型，其定价为行业领先的每 1,000 页 2 美元（通过 Batch API 可享 50% 折扣，即 1 美元）。开发者可通过 API（模型标识符 mistral-ocr-2512）进行集成，其输出为包含 HTML 表格标签的 markdown 格式，便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布

12月9日

18:06

公众号：蚂蚁百灵（Ling）

Ming-Flash-Omni 全模态模型发布：视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力，覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出，标志着全模态 AI 的重要进展。

多模态教程/实践

12月8日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.6V：支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型，含106B-A12B基础版与9B轻量版Flash，支持128k tokens上下文。首次原生集成Function Call能力，支持图像、截图直接作为工具参数，并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力，适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体 MCP/工具多模态模型发布

推荐理由：智谱开源 GLM-4.6V，原生支持工具调用的多模态 Agent 底座

12月4日

18:00

公众号：小红书技术（dots.llm）

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

12月2日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

11月20日

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMind Google 图像生成多模态

关联讨论 2 条

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

11月11日

19:49

Google DeepMind：Blog（RSS）

教 AI 像我们一样看世界

新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异，旨在通过理解这些差异，让 AI 学会像人类一样观察和理解视觉信息。

DeepMind 多模态论文/研究

00:50

Google DeepMind：Blog（RSS）

AI 如何为北爱尔兰教师赢回时间

北爱尔兰教育管理局 C2k initiative 完成六个月试点，发现将 Gemini 等生成式 AI 工具融入教学，可为参与教师平均每周节省 10 小时工作时间。

Google 多模态现象/趋势

10月26日

02:02

Google DeepMind：Blog（RSS）

精选

MedGemma：健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型，专为健康 AI 开发设计。作为该系列迄今最强的开源版本，新模型具备更强大的医疗场景理解能力，为开发者提供先进的医疗人工智能技术支持，助力构建更精准的健康医疗解决方案。

DeepMind 多模态开源生态模型发布

推荐理由：DeepMind发布最强开放医疗多模态模型，支持开发者微调构建健康AI应用

01:34

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Flash-Lite 正式发布，可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览，达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出，支持 100 万 token 超长上下文和多模态能力。

Google 多模态模型发布端侧

关联讨论 1 条

推荐理由：Google轻量模型Gemini 2.5 Flash-Lite正式版发布，百万上下文多模态兼顾成本效益