AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1235 条
全部一手资讯X论文
标签「多模态」清除
3月12日周四
00:00Claude:Blog(网页)精选Claude 新增交互式图表、图解与可视化功能
3月10日周二
18:00公众号:小红书技术(dots.llm)43ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选ChatGPT 推出数学与科学学习新方式
11:54公众号:腾讯混元59混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
3月9日周一
00:00Runway:News(网页)精选Runway 推出 Characters:单图实时生成可对话虚拟角色 API
3月8日周日
20:41公众号:小红书技术(dots.llm)47小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升
3月6日周五
11:34公众号:生数科技(Vidu·视频)22Vidu即将亮相香港国际影视展 FILMART 30th
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)Descript 如何实现大规模多语言视频配音
02:00Google Blog:AI(RSS)Ask a Techspert:AI 如何理解我的视觉搜索?
3月5日周四
08:00HuggingFace Daily Papers(社区热门论文)空间能力基准测试 SCBench
3月4日周三
22:09公众号:MiniMax(稀宇科技)30MiniMax Music 2.5+ 发布
17:01公众号:腾讯混元27CVPR 2026录取结果公布,腾讯混元25+论文入选
01:00Google Blog:AI(RSS)精选在 Project Genie 中创建新世界的 4 个技巧
3月2日周一
17:58公众号:小红书技术(dots.llm)55FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式
2月28日周六
08:00HuggingFace Daily Papers(社区热门论文)46DiagramBank:一个用于检索增强生成的大规模示意图设计范例数据集
2月24日周二
08:00HuggingFace Daily Papers(社区热门论文)精选屏幕上的图灵测试:移动GUI代理人性化基准
2月19日周四
00:01Google DeepMind:Blog(RSS)表达自我的新方式:Gemini 现已支持音乐创作
2月14日周六
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seed2.0 正式发布
2月13日周五
15:54公众号:月之暗面(Kimi)43Kimi K2.5 如何实现文本和视觉能力互相增强?
2月12日周四
16:14蚂蚁 inclusionAI:GitHub 新仓库44inclusionAI/Zooming-without-Zooming
12:18公众号:豆包(字节)41豆包视频生成模型Seedance 2.0上线
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seedance 2.0 正式发布
2月11日周三
19:00公众号:蚂蚁百灵(Ling)33百灵全模态 Ming-flash-omni-2.0 发布:感知无界,创造有形
08:00蚂蚁百灵:Developer Blog(网页)83精选感知无界·创造有形:百灵全模态 Ming-flash-omni-2.0 焕新生活想象
00:00LMSYS:Blog(Chatbot Arena 团队)基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践
2月10日周二
20:09公众号:小红书技术(dots.llm)54懂剪辑,更懂叙事:FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent
14:57蚂蚁 inclusionAI:HuggingFace 新模型41inclusionAI/Ming-flash-omni-2.0
13:08Qwen:Blog Retrieval(API)Qwen-Image-2.0:专业信息图表与精美照片级真实感
10:00公众号:豆包(字节)22豆包要上春晚了,超10万份科技好礼等你带回家
00:00Runway:News(网页)Runway 获 3.15 亿美元 E 轮融资,用于扩展 World Simulation
2月4日周三
01:40Hugging Face:Blog(RSS)73精选H公司新模型Holo2在UI本地化领域取得领先
2月3日周二
00:00Moonshot AI:Kimi BlogWorldVQA:多模态大模型视觉世界知识基准测试
00:00智谱:研究(网页内嵌数据)GLM-OCR发布:性能SOTA,搞定复杂文档
1月30日周五
08:04公众号:月之暗面(Kimi)55不只PPT,Kimi K2.5 Agent可以帮你做Excel、Word和PDF了
01:01Google DeepMind:Blog(RSS)Project Genie:探索无限交互世界
1月27日周二
19:11公众号:月之暗面(Kimi)61精选Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力
1月26日周一
04:00Qwen:Blog Retrieval(API)将 Qwen3-Max-Thinking 推向极限
1月16日周五
18:39Google DeepMind:Blog(RSS)D4RT:教AI看见四维世界
18:00公众号:蚂蚁百灵(Ling)36百灵大模型Ling Studio正式发布,支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力
1月12日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月12日
00:00
Claude:Blog(网页)
精选
Claude 新增交互式图表、图解与可视化功能

Claude 推出可视化功能测试版,支持在对话中实时生成交互式图表、图解等视觉内容,无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts,以内联临时形式辅助理解当前话题,默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式,并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。

Anthropic产品更新多模态

推荐理由:Claude推出对话内交互式图表功能,实时生成可视化助力理解
3月10日
18:00
公众号:小红书技术(dots.llm)
43
ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解

小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。

多模态推理论文/研究
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
ChatGPT 推出数学与科学学习新方式

ChatGPT 新增数学与科学交互式可视化解释功能,支持实时探索公式、变量及概念,帮助学生更直观地理解理科知识。

OpenAI产品更新多模态

推荐理由:ChatGPT 新增数学与科学可视化交互功能,提升学习体验
11:54
公众号:腾讯混元
59
混元世界模型再进化:开源首个面向世界模型的强化学习后训练框架WorldCompass
多模态开源生态模型发布
3月9日
00:00
Runway:News(网页)
精选
Runway 推出 Characters:单图实时生成可对话虚拟角色 API

Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。

智能体产品更新多模态视频

推荐理由:Runway推出实时视频Agent,单图生成可对话数字人,拓展AI交互形态
3月8日
20:41
公众号:小红书技术(dots.llm)
47
小红书 FireRed-Image-Edit v1.1 发布:OOTD元素融合、人像一致性大幅提升

小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。

图像生成多模态模型发布
3月6日
11:34
公众号:生数科技(Vidu·视频)
22
Vidu即将亮相香港国际影视展 FILMART 30th

生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区,展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型,具备多镜头自由切换、多语言对话及多语种文字渲染能力,旨在为影视制作与内容工业带来全新生产方式。

多模态行业动态视频
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音,可在自动本地化大型内容库时保持时间同步与语义准确。

OpenAI产品更新多模态语音
02:00
Google Blog:AI(RSS)
Ask a Techspert:AI 如何理解我的视觉搜索?

Google 搜索 AI 模式通过 query fan-out(查询扇出)技术处理视觉搜索,将图像查询拆解为多个子问题并行分析,从而提升对视觉内容的理解能力。

Google多模态搜索教程/实践
3月5日
08:00
HuggingFace Daily Papers(社区热门论文)
空间能力基准测试 SCBench

研究团队发布空间能力基准测试 SCBench,突破现有评估仅针对孤立 3D 变换或视觉问答的局限,设置三个层次化能力维度,要求模型输出可执行动作并通过确定性检查器或模拟器验证。测试显示,三款前沿模型准确率随任务难度提升而单调下降;限制输出 token 数量发现,准确率提升集中在低预算区间且快速饱和,主要失败模式为局部几何合理但违反全局约束。团队已开源任务生成器、验证器及可视化工具。

arXiv多模态论文/研究评测/基准
3月4日
22:09
公众号:MiniMax(稀宇科技)
30
MiniMax Music 2.5+ 发布

MiniMax Music 2.5+ 版本发布,主打解锁用户的专属“天空之城”功能。

产品更新多模态
17:01
公众号:腾讯混元
27
CVPR 2026录取结果公布,腾讯混元25+论文入选

CVPR 2026录取结果公布,腾讯混元25+篇论文入选。研究方向聚焦多模态创新和可持续AI等领域。

多模态行业动态
01:00
Google Blog:AI(RSS)
精选
在 Project Genie 中创建新世界的 4 个技巧

Google DeepMind 分享 Project Genie 使用指南,提供 4 个提示词写作技巧,帮助用户通过自然语言描述生成可交互的虚拟世界。

DeepMindGoogle多模态教程/实践
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google DeepMind分享Project Genie提示词技巧,教你用AI生成可交互3D世界
3月2日
17:58
公众号:小红书技术(dots.llm)
55
FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式

FireRed-OCR 开源发布,为端到端方案新SOTA,小红书提出低成本文档识别训练范式,无缝兼容Qwen系列加速方案,是开箱即用的工业级OCR结构化专家。

多模态开源/仓库
2月28日
08:00
HuggingFace Daily Papers(社区热门论文)
46
DiagramBank:一个用于检索增强生成的大规模示意图设计范例数据集

为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。

多模态数据/训练论文/研究
2月24日
08:00
HuggingFace Daily Papers(社区热门论文)
精选
屏幕上的图灵测试:移动GUI代理人性化基准

研究团队提出"屏幕图灵测试"框架,将人机交互形式化为MinMax优化问题,并发布Agent Humanization Benchmark (AHB)。基于新收集的高保真移动触摸动态数据集,发现普通LMM代理因运动学特征不自然而极易被检测。该基准量化了可模仿性与任务效用的权衡,提出的启发式噪声至数据驱动行为匹配方法,使代理在不牺牲性能的前提下实现高可模仿性,推动GUI代理从"能否完成任务"向"如何像人类一样完成"的范式转变。

智能体arXivHugging Face多模态

推荐理由:让AI操作手机更像真人,避免被平台识别封禁的实用新研究
2月19日
00:01
Google DeepMind:Blog(RSS)
表达自我的新方式:Gemini 现已支持音乐创作

Gemini 应用集成 Lyria 3 音乐生成模型,支持通过文本或图片提示创作 30 秒音乐片段,让任何用户都能轻松制作音轨。

Google产品更新多模态
2月14日
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seed2.0 正式发布

Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由:字节 Seed2.0 正式发布,Agent 与多模态能力全面升级,已接入豆包和 TRAE
2月13日
15:54
公众号:月之暗面(Kimi)
43
Kimi K2.5 如何实现文本和视觉能力互相增强?
多模态教程/实践
2月12日
16:14
蚂蚁 inclusionAI:GitHub 新仓库
44
inclusionAI/Zooming-without-Zooming

inclusionAI团队发布了ZwZ模型系列,在细粒度感知任务上取得了当前最佳性能。同时,该团队推出了名为ZoomBench的全新感知基准测试,其设计更具挑战性。这些成果已在ICML 2026会议上展示。

多模态论文/研究评测/基准
12:18
公众号:豆包(字节)
41
豆包视频生成模型Seedance 2.0上线

字节跳动旗下豆包推出视频生成模型Seedance 2.0,该模型已上线。

多模态模型发布视频
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seedance 2.0 正式发布

Seedance 2.0 视频生成模型正式发布,综合性能达业界 SOTA 水平。新版本支持多模态输入,可同时参考 9 张图片、3 段视频、3 段音频及文本指令,精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成,集成双声道立体声技术,并新增视频延长与编辑功能,可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线,适用于影视、广告、电商等工业级内容创作场景。

多模态模型发布视频
关联讨论 1 条字节 Seed:Research Papers(网页内嵌数据)
推荐理由:字节Seedance 2.0发布,支持多模态输入与物理稳定生成,已上线豆包即梦
2月11日
19:00
公众号:蚂蚁百灵(Ling)
33
百灵全模态 Ming-flash-omni-2.0 发布:感知无界,创造有形

蚂蚁百灵推出全模态模型 Ming-flash-omni-2.0,融合感知与创造能力,旨在通过多模态交互焕新生活体验。具体技术参数和性能数据暂未披露。

多模态模型发布
08:00
蚂蚁百灵:Developer Blog(网页)
精选83
感知无界·创造有形:百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构,在视觉、语音、图像等全模态能力上实现代际跃迁,其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括:视觉百科能精准识别万物并关联知识;语音生成可控制情绪、方言,提供百种音色,并能统一生成语音、音效与背景音乐;图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:国产全模态模型开源,多模态能力达领先水准,开发者可直接体验或集成。
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践

阿里云Qwen团队与AMD AI框架团队基于SGLang框架,在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术,Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍,Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。

多模态论文/研究部署/工程
2月10日
20:09
公众号:小红书技术(dots.llm)
54
懂剪辑,更懂叙事:FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent

FireRed-OpenStoryline 今日正式开源,成为首个具备导演思维的视频剪辑Agent,将大模型能力从文本、图像拓展至视频剪辑领域。

智能体多模态开源/仓库视频
14:57
蚂蚁 inclusionAI:HuggingFace 新模型
41
inclusionAI/Ming-flash-omni-2.0

inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级,延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。

多模态开源生态模型发布
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-2.0:专业信息图表与精美照片级真实感

Qwen-Image-2.0 发布,主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。

图像生成多模态模型发布
10:00
公众号:豆包(字节)
22
豆包要上春晚了,超10万份科技好礼等你带回家

字节跳动旗下AI产品豆包宣布即将亮相春晚,并同步送出超过10万份科技好礼,用户可通过互动环节参与领取,不容错过。

多模态行业动态
00:00
Runway:News(网页)
Runway 获 3.15 亿美元 E 轮融资,用于扩展 World Simulation

Runway 宣布完成 3.15 亿美元 E 轮融资,由 General Atlantic 领投,NVIDIA、Adobe Ventures 等参投。本轮资金将用于预训练下一代 world models 并拓展至新产品和行业。公司正在招聘。

多模态行业动态视频
2月4日
01:40
Hugging Face:Blog(RSS)
精选73
H公司新模型Holo2在UI本地化领域取得领先

H公司在Hugging Face发布博客,正式推出新一代模型Holo2。该模型在用户界面本地化任务上表现突出,实现了技术领先。其核心改进在于显著提升了多语言UI元素的识别与适配能力,能够更精准地处理图标、布局、文本标签等组件的文化适配与翻译。这一进展有望帮助全球应用和软件更高效地实现界面本地化,降低跨区域运营成本。

Hugging Face多模态模型发布

推荐理由:UI本地化领域新标杆,开发者可关注其多模态能力。
2月3日
00:00
Moonshot AI:Kimi Blog
WorldVQA:多模态大模型视觉世界知识基准测试

Kimi团队发布WorldVQA基准测试,评估多模态大语言模型视觉世界知识的事实准确性。数据集包含3,500个经多阶段人工验证的图像-问题对,涵盖自然、地理、文化等9个类别,区分头部与尾部知识分布。测试显示,即使是Kimi K2.5、Gemini-3-pro等前沿模型,整体准确率仅46%-47%,长尾视觉知识上常低于50%,揭示当前模型在事实可靠性方面的显著不足。

多模态评测/基准
00:00
智谱:研究(网页内嵌数据)
GLM-OCR发布:性能SOTA,搞定复杂文档

GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。

多模态开源生态模型发布端侧
1月30日
08:04
公众号:月之暗面(Kimi)
55
不只PPT,Kimi K2.5 Agent可以帮你做Excel、Word和PDF了
智能体产品更新多模态
01:01
Google DeepMind:Blog(RSS)
Project Genie:探索无限交互世界

Google 向美国 AI Ultra 订阅用户开放实验性原型 Project Genie 试用,支持实时创建并探索无限生成的交互式世界。

DeepMindGoogle产品更新多模态
1月27日
19:11
公众号:月之暗面(Kimi)
精选61
Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力
智能体多模态开源/仓库模型发布

推荐理由:Kimi K2.5把视觉理解和Agent集群能力打包开源,国内模型里比较早做这个组合的,虽然参数规模争议不小,但对想搭多模态Agent的团队是个可用的起点。
1月26日
04:00
Qwen:Blog Retrieval(API)
将 Qwen3-Max-Thinking 推向极限

Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 等全面功能,支持多模态 AI 应用。

产品更新多模态
1月16日
18:39
Google DeepMind:Blog(RSS)
D4RT:教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪,速度较先前方法提升最高达300倍,为四维计算机视觉领域提供高效解决方案。

DeepMindGoogle多模态视频
18:00
公众号:蚂蚁百灵(Ling)
36
百灵大模型Ling Studio正式发布,支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。

MCP/工具产品更新多模态推理
1月12日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展

SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。

多模态开源/仓库部署/工程
‹ 上一页
1…2728293031
下一页 ›