AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1235 条
全部一手资讯X论文
标签「多模态」清除
1月8日周四
04:00Qwen:Blog Retrieval(API)Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索
1月6日周二
08:00xAI:News(网页)xAI 完成 200 亿美元 E 轮融资
12月23日周二
13:08Qwen:Blog Retrieval(API)Qwen-Image-Edit-2511:提升一致性
00:00Qwen:Blog Retrieval(API)Qwen3-TTS 升级:支持语音克隆和语音设计!
12月19日周五
12:47公众号:豆包(字节)17豆包可以直接生成有声视频了
12月18日周四
18:00公众号:小红书技术(dots.llm)42NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble
16:11公众号:豆包(字节)53豆包大模型1.8发布,Seedance模型同步升级
12月17日周三
00:00Mistral AI:News(网页)55Mistral OCR 3 发布
12月9日周二
18:06公众号:蚂蚁百灵(Ling)31Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先
12月8日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.6V:支持原生工具调用的开源多模态模型
12月4日周四
18:00公众号:小红书技术(dots.llm)42AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道"综合题"
12月2日周二
00:00Mistral AI:News(网页)68Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)
11月20日周四
23:05Google DeepMind:Blog(RSS)精选Google DeepMind 发布 Nano Banana Pro 图像生成模型
11月14日周五
16:06蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/AudioMCQ:一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集,用于大型音频语言模型后训练
11月11日周二
19:49Google DeepMind:Blog(RSS)教 AI 像我们一样看世界
00:50Google DeepMind:Blog(RSS)AI 如何为北爱尔兰教师赢回时间
10月26日周日
02:02Google DeepMind:Blog(RSS)精选MedGemma:健康 AI 开发领域最强的开源多模态模型
01:34Google DeepMind:Blog(RSS)精选Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产
01:27Google DeepMind:Blog(RSS)《ANCESTRA》幕后:Veo 与真人实景拍摄相结合
10月25日周六
03:06Google DeepMind:Blog(RSS)AlphaEarth Foundations 以前所未有的细节绘制地球地图
10月24日周五
11:17Google DeepMind:Blog(RSS)使用 Backstory 探索网络图片背景
10:21Google DeepMind:Blog(RSS)利用人工智能深度感知宇宙
08:48美团 LongCat:HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni
02:48Google DeepMind:Blog(RSS)Gemini 图像编辑功能迎来重大升级
02:40Google DeepMind:Blog(RSS)精选Gemini 2.5 Computer Use 模型发布
10月23日周四
17:42美团 LongCat:HuggingFace 新模型美团 LongCat 发布 Flash-Omni 模型
10月22日周三
00:00字节 Seed:Research Papers(网页内嵌数据)Seed3D 1.0:从图像生成高保真、可直接仿真的 3D 资产
10月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)83精选Circuits 更新 - 2025年10月
9月30日周二
19:36蚂蚁 inclusionAI:GitHub 新仓库51inclusionAI/Ming-UniVision
9月25日周四
00:00Suno:Blog(网页)Suno Studio 正式发布
9月19日周五
09:10公众号:小米 MiMo54小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
8月26日周二
08:00OpenRouter:Announcements(RSS)49OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview
8月15日周五
19:57蚂蚁 inclusionAI:GitHub 新仓库58精选inclusionAI/UI-Venus
8月8日周五
20:11公众号:小米 MiMo47小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh: 小米推出了 MiMo-VL-7B-2508 多模态模型。
8月4日周一
08:00OpenRouter:Announcements(RSS)48OpenRouter 应用支持语音输入与 PDF URL 发送
08:00OpenRouter:Announcements(RSS)43OpenRouter 应用新增语音输入和 PDF URL 支持
08:00OpenRouter:Announcements(RSS)51为应用添加 Audio Inputs 和 PDF URLs 支持
8月1日周五
00:00Mistral AI:News(网页)59通过微调释放视觉语言模型在卫星图像上的潜力
7月17日周四
00:00Mistral AI:News(网页)51Mistral AI 为 Le Chat 推出五项重要更新
7月16日周三
00:00LMSYS:Blog(Chatbot Arena 团队)在 SGLang 中支持新 VLMs:NVILA 案例研究
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
1月8日
04:00
Qwen:Blog Retrieval(API)
Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布
1月6日
08:00
xAI:News(网页)
xAI 完成 200 亿美元 E 轮融资

xAI 完成 200 亿美元 E 轮融资,投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户,运营超 100 万 H100 GPU 等效算力的 Colossus 超算,正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。

智能体xAI多模态行业动态
12月23日
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-Edit-2511:提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态
00:00
Qwen:Blog Retrieval(API)
Qwen3-TTS 升级:支持语音克隆和语音设计!

Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音
12月19日
12:47
公众号:豆包(字节)
17
豆包可以直接生成有声视频了
产品更新多模态
12月18日
18:00
公众号:小红书技术(dots.llm)
42
NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究
16:11
公众号:豆包(字节)
53
豆包大模型1.8发布,Seedance模型同步升级

字节跳动发布豆包大模型1.8版本,同步升级Seedance模型。

多模态模型发布
12月17日
00:00
Mistral AI:News(网页)
55
Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 mistral-ocr-2512)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布
12月9日
18:06
公众号:蚂蚁百灵(Ling)
31
Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力,覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出,标志着全模态 AI 的重要进展。

多模态教程/实践
12月8日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.6V:支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体MCP/工具多模态模型发布

推荐理由:智谱开源 GLM-4.6V,原生支持工具调用的多模态 Agent 底座
12月4日
18:00
公众号:小红书技术(dots.llm)
42
AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准,用于评估多模态大模型在跨视频场景下的综合推理能力,已被 AAAI 2026 收录。

多模态论文/研究评测/基准
12月2日
00:00
Mistral AI:News(网页)
68
Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布
11月20日
23:05
Google DeepMind:Blog(RSS)
精选
Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMindGoogle图像生成多模态
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)
推荐理由:Google 发布 Nano Banana Pro 图像生成模型,支持多语言文本渲染与 4K 输出
11月14日
16:06
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/AudioMCQ:一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集,用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究
11月11日
19:49
Google DeepMind:Blog(RSS)
教 AI 像我们一样看世界

新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异,旨在通过理解这些差异,让 AI 学会像人类一样观察和理解视觉信息。

DeepMind多模态论文/研究
00:50
Google DeepMind:Blog(RSS)
AI 如何为北爱尔兰教师赢回时间

北爱尔兰教育管理局 C2k initiative 完成六个月试点,发现将 Gemini 等生成式 AI 工具融入教学,可为参与教师平均每周节省 10 小时工作时间。

Google多模态现象/趋势
10月26日
02:02
Google DeepMind:Blog(RSS)
精选
MedGemma:健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。

DeepMind多模态开源生态模型发布

推荐理由:DeepMind发布最强开放医疗多模态模型,支持开发者微调构建健康AI应用
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
01:27
Google DeepMind:Blog(RSS)
《ANCESTRA》幕后:Veo 与真人实景拍摄相结合

与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。

DeepMindGoogle产品更新多模态
10月25日
03:06
Google DeepMind:Blog(RSS)
AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。

DeepMind多模态数据/训练模型发布
10月24日
11:17
Google DeepMind:Blog(RSS)
使用 Backstory 探索网络图片背景

实验性 AI 工具 Backstory 发布,支持查询网络图片的背景与原始出处,帮助用户追溯图像来源。

DeepMindGoogle产品更新多模态
10:21
Google DeepMind:Blog(RSS)
利用人工智能深度感知宇宙

利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。

DeepMindGoogle多模态数据/训练
08:48
美团 LongCat:HuggingFace 新模型
精选
美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face多模态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数多模态模型,27B 激活即可实现实时音视频交互
02:48
Google DeepMind:Blog(RSS)
Gemini 图像编辑功能迎来重大升级

Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。

Google产品更新图像生成多模态
02:40
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。

智能体DeepMindGoogle多模态

推荐理由:Google 发布 Gemini 2.5 Computer Use 模型,支持 Agent 自主操作图形界面
10月23日
17:42
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 Flash-Omni 模型

美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。

Hugging Face多模态开源生态模型发布
10月22日
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed3D 1.0:从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究
10月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由:为AI可解释性研究提供新实验方法,启发跨模态模型设计。
9月30日
19:36
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布
9月25日
00:00
Suno:Blog(网页)
Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。

产品更新多模态语音
9月19日
09:10
公众号:小米 MiMo
54
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音
8月26日
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。

Google产品更新图像生成多模态
8月15日
19:57
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。

智能体GitHub多模态开源/仓库

推荐理由:蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索,代码开源可直接用,做 GUI 自动化的值得看看底层怎么实现元素定位和导航。
8月8日
20:11
公众号:小米 MiMo
47
小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh: 小米推出了 MiMo-VL-7B-2508 多模态模型。
多模态推理模型发布
8月4日
08:00
OpenRouter:Announcements(RSS)
48
OpenRouter 应用支持语音输入与 PDF URL 发送

现可通过 URL 发送 PDF 文件以及使用语音输入功能,且适用于任意模型。

产品更新多模态
08:00
OpenRouter:Announcements(RSS)
43
OpenRouter 应用新增语音输入和 PDF URL 支持

OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。

产品更新多模态语音
08:00
OpenRouter:Announcements(RSS)
51
为应用添加 Audio Inputs 和 PDF URLs 支持

平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。

产品更新多模态部署/工程
8月1日
00:00
Mistral AI:News(网页)
59
通过微调释放视觉语言模型在卫星图像上的潜力

Mistral AI展示了如何通过LoRA微调技术,将Pixtral-12B视觉语言模型适配到卫星图像分析任务,从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试,对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉,而经过微调的模型将整体分类准确率从85.2%提升至94.1%,针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%,并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。

多模态教程/实践
7月17日
00:00
Mistral AI:News(网页)
51
Mistral AI 为 Le Chat 推出五项重要更新

Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。

产品更新多模态推理语音
7月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 SGLang 中支持新 VLMs:NVILA 案例研究

NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程
‹ 上一页
1…28293031
下一页 ›