AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
4月3日周五
08:00HuggingFace Daily Papers(社区热门论文)43OmniGUI:全模态智能手机环境中的GUI代理基准测试
01:09Artificial Analysis精选Google发布Gemma 4多模态开源模型系列
4月2日周四
22:29Satya Nadella精选MAI 模型家族全面登陆 Foundry,面向所有开发者开放
19:58公众号:龙猫LongCat(美团)53美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
13:03karminski-牙医智谱GLM-5V-Turbo实测:多模态补强但代码生成偏弱
08:05公众号:智谱(GLM)45智谱发布GLM-5V-Turbo多模态Coding基座模型
08:00Hugging Face:Blog(RSS)88精选Welcome Gemma 4: 设备端的 Frontier 多模态智能
04:00Qwen:Blog Retrieval(API)Qwen3.6-Plus:迈向真实世界 Agent
00:19DeedyGoogle Maps 竟能将全球街景变成可玩视频游戏,令人震撼
00:00智谱:研究(网页内嵌数据)精选GLM-5V-Turbo发布:多模态Coding基座模型
4月1日周三
12:14公众号:可灵AI(快手·视频)16可灵AI清明短片引用户热议:评论区里人人都有"纸手机"
11:20DeedyGaussian splats:当今除AI外最激动人心的软件技术
3月31日周二
23:10Hugging Face:Blog(RSS)70精选Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能
3月30日周一
21:08公众号:通义实验室(千问)59215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI
3月29日周日
22:32Gary Marcus:The Road to AI We Can Trust(RSS)精选当前前沿模型视觉理解的幻象
3月27日周五
21:12公众号:昆仑万维(天工)54昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布
3月26日周四
01:32Google Gemini何时在 Gemini 中使用 Lyria 3 与 Lyria 3 Pro 创作音乐
00:02Google GeminiGemini 集成 Lyria 3 Pro,支持生成更长音轨
00:02Google DeepMindLyria 3 Pro 现已支持创作更长音轨
00:01Google DeepMind:Blog(RSS)Lyria 3 Pro:支持更长音轨,扩展至更多平台
00:00Google Blog:AI(RSS)Lyria 3 Pro:在更多 Google 产品中创作更长音轨
00:00Google Blog:AI(RSS)精选基于 Lyria 3 构建:全新音乐生成模型开放预览
00:00Suno:Blog(网页)Suno v5.5:更具表现力,更懂你
3月25日周三
16:46Demis Hassabis很高兴与 Agile Robots 达成合作!
15:58公众号:智谱(GLM)49智谱携手奔驰,多模态大模型"上车"
13:15公众号:昆仑万维(天工)46Mureka V8登顶Artificial Analysis双榜单第一
08:00HuggingFace Daily Papers(社区热门论文)41Realiz3D:通过领域感知学习实现照片级真实的3D生成
00:00Google Research:Blog(网页)精选Vibe Coding XR:基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发
3月24日周二
15:34公众号:通义实验室(千问)51PrismAudio:声画同频,音效随行
08:00Google Developers Blog(RSS)71精选跳跃即玩:利用Gemini与MediaPipe进行开发
03:28Saining Xie最好搭配 LeWorldModel 论文阅读。别问我为什么 🙂
3月23日周一
08:36公众号:MiniMax(稀宇科技)47MiniMax Token Plan:全球首个支持全模态模型的订阅计划
3月20日周五
22:54Google Gemini超爱这些创作,快来试试,在回复里分享你的作品 👇
19:48Artificial Analysis精选Mistral发布开源模型Small 4,支持混合推理与图像理解
13:32公众号:生数科技(Vidu·视频)24生数科技:通用世界模型是连接数字世界与物理世界的桥梁
08:00HuggingFace Daily Papers(社区热门论文)PersonaVLM:面向长期个性化的多模态大语言模型
3月19日周四
11:12Demis Hassabis精选用 @stitchbygoogle 即可 vibe design 惊艳界面
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Max-Preview 现已上线 Arena
00:48公众号:小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月3日
08:00
HuggingFace Daily Papers(社区热门论文)
43
OmniGUI:全模态智能手机环境中的GUI代理基准测试

OmniGUI 是一个步级基准,专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入,包括静态图像、同步音频和视频片段,数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序,并标注了多模态依赖级别。评估显示,基础多模态模型在处理需要同步时序和听觉信号的任务时,动作预测性能显著下降。消融实验指出,跨模态干扰是主要瓶颈,尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。

智能体多模态论文/研究
01:09
Artificial Analysis@ArtificialAnlys
精选
Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。

DeepMindGoogle多模态开源生态
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)
推荐理由:Google发布多模态开源模型Gemma 4,单卡H100可跑且科学推理能力突出
4月2日
22:29
Satya Nadella@satyanadella
精选
MAI 模型家族正式登陆 Foundry 平台,推出三款新模型:MAI-Transcribe-1(支持25种语言的最准确转录模型)、MAI-Voice-1(自然语音生成)和 MAI-Image-2(最强图像生成模型)。开发者现可通过该平台直接调用。
Microsoft多模态模型发布语音

推荐理由:Microsoft CEO 亲自发布 MAI 系列三大新模型,覆盖语音转录、合成与图像生成
19:58
公众号:龙猫LongCat(美团)
53
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next,将视觉与语音作为模型的固有输入输出模态,而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统,强调多模态能力在底层架构中的原生融合,而非后期拼接。

多模态模型发布
13:03
karminski-牙医@karminski3
智谱GLM-5V-Turbo实测:多模态补强但代码生成偏弱

智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。

多模态模型发布编码
08:05
公众号:智谱(GLM)
45
智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo,这是一款多模态Coding基座模型,专注于编程场景下的多模态任务处理。

多模态模型发布
08:00
Hugging Face:Blog(RSS)
精选88
Welcome Gemma 4: 设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google多模态模型发布端侧

推荐理由:前沿多模态模型开源,设备端可运行,降低AI部署门槛。
04:00
Qwen:Blog Retrieval(API)
Qwen3.6-Plus:迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。

智能体多模态模型发布
00:19
Deedy@deedydas
Google Maps 现有技术已能将全球街景图像转化为可玩视频游戏,令人震撼。未来还能借此回顾100年前的纽约等城市风貌,实现穿越时空的探索体验。
Google多模态现象/趋势
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5V-Turbo发布:多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由:智谱发布多模态Coding基座GLM-5V-Turbo,深度适配Claude Code等Agent
4月1日
12:14
公众号:可灵AI(快手·视频)
16
可灵AI清明短片引用户热议:评论区里人人都有"纸手机"

可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。

多模态教程/实践视频
11:20
Deedy@deedydas
Gaussian splats:当今除AI外最激动人心的软件技术

Gaussian splats是新兴的实时3D渲染技术,可在iPhone上实现自由视角的沉浸式场景浏览。该技术用高斯分布编码场景结构与外观,相比NeRFs极大提升渲染速度。当前突破包括单图生成(Apple ML SHARP)、动态场景捕捉(4DV ai)及生成模型填补未拍摄区域。未来将成为Vision Pro等VR设备的核心娱乐格式,并与世界模型结合实现城市级漫游或游戏化交互,但仍需解决创建效率、存储传输及视觉真实感等挑战。

多模态现象/趋势视频
3月31日
23:10
Hugging Face:Blog(RSS)
精选70
Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由:IBM 推出轻量级多模态模型,企业文档场景可直接落地部署
3月30日
21:08
公众号:通义实验室(千问)
59
215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布

Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。

多模态模型发布
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI

Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。

智能体多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
推荐理由:阿里发布Qwen3.5-Omni多模态模型,迈向原生全模态AGI
3月29日
22:32
Gary Marcus:The Road to AI We Can Trust(RSS)
精选
当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中,无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷,表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞,指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由:揭示多模态基准测试漏洞,医学AI应用需警惕数据泄露风险
3月27日
21:12
公众号:昆仑万维(天工)
54
昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶,其中包括三款达到世界第一梯队的模型。

多模态模型发布
3月26日
01:32
Google Gemini@GeminiApp
Lyria 3 适合创作趣味即兴曲目并快速分享,Lyria 3 Pro 则提供更多音乐流畅性与自定义选项。后者仅向 Google AI Plus、Pro 及 Ultra 订阅用户开放,适合需要进阶功能的创作者。
Google产品更新多模态
00:02
Google Gemini@GeminiApp
Lyria 3 Pro 正式接入 Gemini,支持生成更长音轨及复杂风格过渡。即日起向 Google AI Plus、Pro 与 Ultra 订阅用户开放。
Google产品更新多模态语音
00:02
Google DeepMind@GoogleDeepMind
Lyria 3 Pro 升级后可生成最长3分钟的高保真音轨,支持编排前奏、主歌、副歌与桥段等完整歌曲结构,实现更长篇幅的音乐创作。
DeepMind产品更新多模态
00:01
Google DeepMind:Blog(RSS)
Lyria 3 Pro:支持更长音轨,扩展至更多平台

Lyria 3 Pro 发布,支持生成更长音轨并具备结构感知能力,同时将集成至更多 Google 产品和平台。

DeepMind产品更新多模态
00:00
Google Blog:AI(RSS)
Lyria 3 Pro:在更多 Google 产品中创作更长音轨

Google 将 Lyria 3 Pro 扩展至更多产品,支持生成更长音轨,并集成至专业人士日常工作和创作工具中。

Google产品更新多模态
00:00
Google Blog:AI(RSS)
精选
基于 Lyria 3 构建:全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览,开发者可通过 Gemini API 调用,或在 Google AI Studio 免费测试。

Google多模态模型发布

推荐理由:Google 发布音乐生成模型 Lyria 3,现可通过 Gemini API 和 AI Studio 体验
00:00
Suno:Blog(网页)
Suno v5.5:更具表现力,更懂你

Suno发布v5.5模型,推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声,经语音验证后仅限本人使用;Custom Models可基于用户原创曲库训练最多三个个性化模型;My Taste则面向所有用户,自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者,并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音
3月25日
16:46
Demis Hassabis@demishassabis
Google DeepMind 宣布与 Agile Robots 建立研究合作,将 Gemini 基础模型集成至对方硬件平台,部署于工业场景解决复杂挑战,构建下一代更实用的机器人。

Google DeepMind: Google DeepMind 🤝 Agile Robots Our new research partnership will integrate the Gemini foundation models with their hard...

DeepMindGoogle具身智能多模态
15:58
公众号:智谱(GLM)
49
智谱携手奔驰,多模态大模型"上车"
多模态端侧行业动态
13:15
公众号:昆仑万维(天工)
46
Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
41
Realiz3D:通过领域感知学习实现照片级真实的3D生成

Realiz3D是一个轻量级扩散模型训练框架,旨在解决3D生成中因使用合成数据微调预训练模型而导致的控制信号与合成外观不当关联问题,从而避免真实性下降。该方法通过引入协变量和小型残差适配器,将视觉领域(真实或合成)与其他控制信号(如几何、材质和视角)解耦,使模型在应用精确控制时仍能保持照片级真实感。基于对扩散模型不同层和去噪步骤作用的洞察,框架提出了新的训练与推理策略,增强了控制向真实领域的可迁移性。实验表明,在文本到多视图生成和3D输入纹理化等任务中,Realiz3D能同时保证3D一致性与高真实感,有效克服了领域差距带来的挑战。

图像生成多模态论文/研究
00:00
Google Research:Blog(网页)
精选
Vibe Coding XR:基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流,结合 Gemini Canvas 与开源框架 XR Blocks,利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建,支持手势交互与深度感知,可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室,用户可通过捏合等手势操作 3D 对象,快速验证空间交互设计。

Google产品更新多模态编码

推荐理由:Google推出Vibe Coding XR,用自然语言快速生成可交互的Android XR空间应用。
3月24日
15:34
公众号:通义实验室(千问)
51
PrismAudio:声画同频,音效随行

PrismAudio 由通义实验室(千问)开源发布,定位为“更会思考的AI音效师”,能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频
08:00
Google Developers Blog(RSS)
精选71
跳跃即玩:利用Gemini与MediaPipe进行开发

该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。

Google多模态教程/实践编码

推荐理由:开发者可快速上手AI游戏开发,优化性能并部署生产应用。
03:28
Saining Xie@sainingxie
最好搭配 LeWorldModel 论文阅读。别问我为什么 🙂

Hang Zhao: Our recent findings on World Action Models (WAMs): the core advantage of WAMs is not test-time "imagination" of futures,...

具身智能多模态论文/研究
3月23日
08:36
公众号:MiniMax(稀宇科技)
47
MiniMax Token Plan:全球首个支持全模态模型的订阅计划

MiniMax 发布 Token Plan 订阅计划,该计划支持全模态模型,宣称是全球首个覆盖多模态能力的订阅服务。

产品更新多模态
3月20日
22:54
Google Gemini@GeminiApp
分享一个 Nano Banana 提示词,可生成 2×2 网格的 3D 字体雕塑,将 4 个重要历史年份及其代表性发明以复古科技或蒸汽朋克风格立体呈现。提示词包含锚点定义、形态构建、材质物理和光照渲染等详细参数,直接复制即可使用。欢迎尝试并在回复中晒出你的生成结果。

Gadgetify: I asked Nano Banana to draw me 4 important years in history with their inventions. Interesting output Prompt: 2x2 grid, ...

Google图像生成多模态教程/实践
19:48
Artificial Analysis@ArtificialAnlys
精选
Mistral发布开源模型Small 4,支持混合推理与图像理解

Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。

多模态开源生态推理模型发布

推荐理由:Mistral 开源 Small 4,支持混合推理与多模态,Agent 任务表现大幅提升
13:32
公众号:生数科技(Vidu·视频)
24
生数科技:通用世界模型是连接数字世界与物理世界的桥梁

生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。

多模态现象/趋势视频
08:00
HuggingFace Daily Papers(社区热门论文)
PersonaVLM:面向长期个性化的多模态大语言模型

PersonaVLM 是一个支持长期个性化的多模态智能体框架,具备记忆提取、多轮推理和响应对齐三大核心能力,可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准,涵盖 7 个维度与 14 项细粒度任务。实验表明,在 128k 上下文下,该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%,并超越 GPT-4o 达 5.2% 和 2.0%。

智能体多模态论文/研究
3月19日
11:12
Demis Hassabis@demishassabis
精选
Google 发布 vibe design 平台 Stitch,支持自然语言描述直接生成高保真界面和交互原型,可通过语音实时调整布局。目前仅面向 18 岁以上用户,在 Gemini 支持的英语国家开放。

Google Labs: Introducing the new @stitchbygoogle, Google's vibe design platform that transforms natural language into high-fidelity d...

智能体Google产品更新多模态

推荐理由:Google推出AI设计工具Stitch,自然语言生成界面并支持语音协作,顺应Vibe Design趋势
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
00:48
公众号:小米 MiMo
53
Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布
多模态模型发布语音
‹ 上一页
1…484950
下一页 ›