AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 281 条
全部一手资讯X论文
标签「多模态」清除
3月20日周五
13:32公众号:生数科技(Vidu·视频)24生数科技:通用世界模型是连接数字世界与物理世界的桥梁
3月19日周四
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Max-Preview 现已上线 Arena
00:48公众号:小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
00:45公众号:小米 MiMo37Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
00:25公众号:小米 MiMo49Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
3月17日周二
20:33Hugging Face:Blog(RSS)83精选Holotron-12B - 高吞吐计算机使用智能体
00:00Google Research:Blog(网页)Google Research 在 The Check Up 分享:从医疗创新到真实世界临床场景
3月16日周一
00:00Mistral AI:News(网页)83Mistral AI 与 NVIDIA 合作加速开放前沿模型发展
00:00Mistral AI:News(网页)93研究 ## 推出 Mistral Small 4 模型
3月12日周四
00:00Claude:Blog(网页)精选Claude 新增交互式图表、图解与可视化功能
3月10日周二
18:00公众号:小红书技术(dots.llm)43ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选ChatGPT 推出数学与科学学习新方式
11:54公众号:腾讯混元59混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
3月9日周一
00:00Runway:News(网页)精选Runway 推出 Characters:单图实时生成可对话虚拟角色 API
3月8日周日
20:41公众号:小红书技术(dots.llm)47小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升
3月6日周五
11:34公众号:生数科技(Vidu·视频)22Vidu即将亮相香港国际影视展 FILMART 30th
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)Descript 如何实现大规模多语言视频配音
02:00Google Blog:AI(RSS)Ask a Techspert:AI 如何理解我的视觉搜索?
3月4日周三
22:09公众号:MiniMax(稀宇科技)30MiniMax Music 2.5+ 发布
17:01公众号:腾讯混元27CVPR 2026录取结果公布,腾讯混元25+论文入选
01:00Google Blog:AI(RSS)精选在 Project Genie 中创建新世界的 4 个技巧
3月2日周一
17:58公众号:小红书技术(dots.llm)55FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式
2月19日周四
00:01Google DeepMind:Blog(RSS)表达自我的新方式:Gemini 现已支持音乐创作
2月14日周六
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seed2.0 正式发布
2月13日周五
15:54公众号:月之暗面(Kimi)43Kimi K2.5 如何实现文本和视觉能力互相增强?
2月12日周四
16:14蚂蚁 inclusionAI:GitHub 新仓库44inclusionAI/Zooming-without-Zooming
12:18公众号:豆包(字节)41豆包视频生成模型Seedance 2.0上线
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seedance 2.0 正式发布
2月11日周三
19:00公众号:蚂蚁百灵(Ling)33百灵全模态 Ming-flash-omni-2.0 发布:感知无界,创造有形
08:00蚂蚁百灵:Developer Blog(网页)83精选感知无界·创造有形:百灵全模态 Ming-flash-omni-2.0 焕新生活想象
00:00LMSYS:Blog(Chatbot Arena 团队)基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践
2月10日周二
20:09公众号:小红书技术(dots.llm)54懂剪辑,更懂叙事:FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent
14:57蚂蚁 inclusionAI:HuggingFace 新模型41inclusionAI/Ming-flash-omni-2.0
13:08Qwen:Blog Retrieval(API)Qwen-Image-2.0:专业信息图表与精美照片级真实感
10:00公众号:豆包(字节)22豆包要上春晚了,超10万份科技好礼等你带回家
00:00Runway:News(网页)Runway 获 3.15 亿美元 E 轮融资,用于扩展 World Simulation
2月4日周三
01:40Hugging Face:Blog(RSS)73精选H公司新模型Holo2在UI本地化领域取得领先
2月3日周二
00:00Moonshot AI:Kimi BlogWorldVQA:多模态大模型视觉世界知识基准测试
00:00智谱:研究(网页内嵌数据)GLM-OCR发布:性能SOTA,搞定复杂文档
1月30日周五
08:04公众号:月之暗面(Kimi)55不只PPT,Kimi K2.5 Agent可以帮你做Excel、Word和PDF了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月20日
13:32
公众号:生数科技(Vidu·视频)
24
生数科技:通用世界模型是连接数字世界与物理世界的桥梁

生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。

多模态现象/趋势视频
3月19日
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
00:48
公众号:小米 MiMo
53
Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
多模态模型发布语音
00:45
公众号:小米 MiMo
37
Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
多模态模型发布语音
00:25
公众号:小米 MiMo
49
Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
智能体多模态模型发布
3月17日
20:33
Hugging Face:Blog(RSS)
精选83
Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由:高效推理的计算机使用代理模型,适合生产部署,开发者可直接试用。
00:00
Google Research:Blog(网页)
Google Research 在 The Check Up 分享:从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。

智能体DeepMindGoogle产品更新
3月16日
00:00
Mistral AI:News(网页)
83
Mistral AI 与 NVIDIA 合作加速开放前沿模型发展

Mistral AI 作为 NVIDIA Nemotron 联盟创始成员,与 NVIDIA 达成战略合作,共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具,并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型,将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。

多模态开源生态行业动态
00:00
Mistral AI:News(网页)
93
研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。

多模态推理模型发布
3月12日
00:00
Claude:Blog(网页)
精选
Claude 新增交互式图表、图解与可视化功能

Claude 推出可视化功能测试版,支持在对话中实时生成交互式图表、图解等视觉内容,无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts,以内联临时形式辅助理解当前话题,默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式,并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。

Anthropic产品更新多模态

推荐理由:Claude推出对话内交互式图表功能,实时生成可视化助力理解
3月10日
18:00
公众号:小红书技术(dots.llm)
43
ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解

小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。

多模态推理论文/研究
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
ChatGPT 推出数学与科学学习新方式

ChatGPT 新增数学与科学交互式可视化解释功能,支持实时探索公式、变量及概念,帮助学生更直观地理解理科知识。

OpenAI产品更新多模态

推荐理由:ChatGPT 新增数学与科学可视化交互功能,提升学习体验
11:54
公众号:腾讯混元
59
混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
多模态开源生态模型发布
3月9日
00:00
Runway:News(网页)
精选
Runway 推出 Characters:单图实时生成可对话虚拟角色 API

Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。

智能体产品更新多模态视频

推荐理由:Runway推出实时视频Agent,单图生成可对话数字人,拓展AI交互形态
3月8日
20:41
公众号:小红书技术(dots.llm)
47
小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升

小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。

图像生成多模态模型发布
3月6日
11:34
公众号:生数科技(Vidu·视频)
22
Vidu即将亮相香港国际影视展 FILMART 30th

生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区,展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型,具备多镜头自由切换、多语言对话及多语种文字渲染能力,旨在为影视制作与内容工业带来全新生产方式。

多模态行业动态视频
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音,可在自动本地化大型内容库时保持时间同步与语义准确。

OpenAI产品更新多模态语音
02:00
Google Blog:AI(RSS)
Ask a Techspert:AI 如何理解我的视觉搜索?

Google 搜索 AI 模式通过 query fan-out(查询扇出)技术处理视觉搜索,将图像查询拆解为多个子问题并行分析,从而提升对视觉内容的理解能力。

Google多模态搜索教程/实践
3月4日
22:09
公众号:MiniMax(稀宇科技)
30
MiniMax Music 2.5+ 发布

MiniMax Music 2.5+ 版本发布,主打解锁用户的专属“天空之城”功能。

产品更新多模态
17:01
公众号:腾讯混元
27
CVPR 2026录取结果公布,腾讯混元25+论文入选

CVPR 2026录取结果公布,腾讯混元25+篇论文入选。研究方向聚焦多模态创新和可持续AI等领域。

多模态行业动态
01:00
Google Blog:AI(RSS)
精选
在 Project Genie 中创建新世界的 4 个技巧

Google DeepMind 分享 Project Genie 使用指南,提供 4 个提示词写作技巧,帮助用户通过自然语言描述生成可交互的虚拟世界。

DeepMindGoogle多模态教程/实践
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google DeepMind分享Project Genie提示词技巧,教你用AI生成可交互3D世界
3月2日
17:58
公众号:小红书技术(dots.llm)
55
FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式

FireRed-OCR 开源发布,为端到端方案新SOTA,小红书提出低成本文档识别训练范式,无缝兼容Qwen系列加速方案,是开箱即用的工业级OCR结构化专家。

多模态开源/仓库
2月19日
00:01
Google DeepMind:Blog(RSS)
表达自我的新方式:Gemini 现已支持音乐创作

Gemini 应用集成 Lyria 3 音乐生成模型,支持通过文本或图片提示创作 30 秒音乐片段,让任何用户都能轻松制作音轨。

Google产品更新多模态
2月14日
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seed2.0 正式发布

Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由:字节 Seed2.0 正式发布,Agent 与多模态能力全面升级,已接入豆包和 TRAE
2月13日
15:54
公众号:月之暗面(Kimi)
43
Kimi K2.5 如何实现文本和视觉能力互相增强?
多模态教程/实践
2月12日
16:14
蚂蚁 inclusionAI:GitHub 新仓库
44
inclusionAI/Zooming-without-Zooming

inclusionAI团队发布了ZwZ模型系列,在细粒度感知任务上取得了当前最佳性能。同时,该团队推出了名为ZoomBench的全新感知基准测试,其设计更具挑战性。这些成果已在ICML 2026会议上展示。

多模态论文/研究评测/基准
12:18
公众号:豆包(字节)
41
豆包视频生成模型Seedance 2.0上线

字节跳动旗下豆包推出视频生成模型Seedance 2.0,该模型已上线。

多模态模型发布视频
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seedance 2.0 正式发布

Seedance 2.0 视频生成模型正式发布,综合性能达业界 SOTA 水平。新版本支持多模态输入,可同时参考 9 张图片、3 段视频、3 段音频及文本指令,精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成,集成双声道立体声技术,并新增视频延长与编辑功能,可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线,适用于影视、广告、电商等工业级内容创作场景。

多模态模型发布视频
关联讨论 1 条字节 Seed:Research Papers(网页内嵌数据)
推荐理由:字节Seedance 2.0发布,支持多模态输入与物理稳定生成,已上线豆包即梦
2月11日
19:00
公众号:蚂蚁百灵(Ling)
33
百灵全模态 Ming-flash-omni-2.0 发布:感知无界,创造有形

蚂蚁百灵推出全模态模型 Ming-flash-omni-2.0,融合感知与创造能力,旨在通过多模态交互焕新生活体验。具体技术参数和性能数据暂未披露。

多模态模型发布
08:00
蚂蚁百灵:Developer Blog(网页)
精选83
感知无界·创造有形:百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构,在视觉、语音、图像等全模态能力上实现代际跃迁,其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括:视觉百科能精准识别万物并关联知识;语音生成可控制情绪、方言,提供百种音色,并能统一生成语音、音效与背景音乐;图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:国产全模态模型开源,多模态能力达领先水准,开发者可直接体验或集成。
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践

阿里云Qwen团队与AMD AI框架团队基于SGLang框架,在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术,Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍,Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。

多模态论文/研究部署/工程
2月10日
20:09
公众号:小红书技术(dots.llm)
54
懂剪辑,更懂叙事:FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent

FireRed-OpenStoryline 今日正式开源,成为首个具备导演思维的视频剪辑Agent,将大模型能力从文本、图像拓展至视频剪辑领域。

智能体多模态开源/仓库视频
14:57
蚂蚁 inclusionAI:HuggingFace 新模型
41
inclusionAI/Ming-flash-omni-2.0

inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级,延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。

多模态开源生态模型发布
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-2.0:专业信息图表与精美照片级真实感

Qwen-Image-2.0 发布,主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。

图像生成多模态模型发布
10:00
公众号:豆包(字节)
22
豆包要上春晚了,超10万份科技好礼等你带回家

字节跳动旗下AI产品豆包宣布即将亮相春晚,并同步送出超过10万份科技好礼,用户可通过互动环节参与领取,不容错过。

多模态行业动态
00:00
Runway:News(网页)
Runway 获 3.15 亿美元 E 轮融资,用于扩展 World Simulation

Runway 宣布完成 3.15 亿美元 E 轮融资,由 General Atlantic 领投,NVIDIA、Adobe Ventures 等参投。本轮资金将用于预训练下一代 world models 并拓展至新产品和行业。公司正在招聘。

多模态行业动态视频
2月4日
01:40
Hugging Face:Blog(RSS)
精选73
H公司新模型Holo2在UI本地化领域取得领先

H公司在Hugging Face发布博客,正式推出新一代模型Holo2。该模型在用户界面本地化任务上表现突出,实现了技术领先。其核心改进在于显著提升了多语言UI元素的识别与适配能力,能够更精准地处理图标、布局、文本标签等组件的文化适配与翻译。这一进展有望帮助全球应用和软件更高效地实现界面本地化,降低跨区域运营成本。

Hugging Face多模态模型发布

推荐理由:UI本地化领域新标杆,开发者可关注其多模态能力。
2月3日
00:00
Moonshot AI:Kimi Blog
WorldVQA:多模态大模型视觉世界知识基准测试

Kimi团队发布WorldVQA基准测试,评估多模态大语言模型视觉世界知识的事实准确性。数据集包含3,500个经多阶段人工验证的图像-问题对,涵盖自然、地理、文化等9个类别,区分头部与尾部知识分布。测试显示,即使是Kimi K2.5、Gemini-3-pro等前沿模型,整体准确率仅46%-47%,长尾视觉知识上常低于50%,揭示当前模型在事实可靠性方面的显著不足。

多模态评测/基准
00:00
智谱:研究(网页内嵌数据)
GLM-OCR发布:性能SOTA,搞定复杂文档

GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。

多模态开源生态模型发布端侧
1月30日
08:04
公众号:月之暗面(Kimi)
55
不只PPT,Kimi K2.5 Agent可以帮你做Excel、Word和PDF了
智能体产品更新多模态
‹ 上一页
1…345678
下一页 ›