全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月1日周五

08:10Berryxia.AI54Grok Image Agent网页版Beta上线，实现端到端创意制作

08:00HuggingFace Daily Papers（社区热门论文）51面向定制化多模态角色扮演

08:00HuggingFace Daily Papers（社区热门论文）51WildTableBench：针对真实场景表格图像理解的多模态基础模型基准评测

08:00HuggingFace Daily Papers（社区热门论文）56超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

08:00HuggingFace Daily Papers（社区热门论文）58BlenderRAG：基于检索增强代码合成的高保真3D物体生成

08:00HuggingFace Daily Papers（社区热门论文）50持久视觉记忆：缓解大视觉语言模型中的视觉信号稀释问题

08:00HuggingFace Daily Papers（社区热门论文）68Online Self-Calibration Against Hallucination in Vision-Language Models

08:00HuggingFace Daily Papers（社区热门论文）55让ViT说话：生成式语言-图像预训练

08:00HuggingFace Daily Papers（社区热门论文）54Map2World：基于分割地图的文本到3D世界生成

08:00HuggingFace Daily Papers（社区热门论文）62UniVidX：基于扩散先验的统一多模态视频生成框架

07:15Luma58Luma Agents智能调整物体尺寸

04:44Luma60精选Luma Agents：一键生成高转化网站设计

03:45Suno56Genki将16小节即兴转为千禧摇滚曲

02:39Rohan Paul61Google DeepMind 推出实时视频AI协诊系统

02:15Google Gemini31Anyma携手Gemini与DeepMind 消弭想象与创作隔阂

02:13Google Developers Blog（RSS）62精选基于Gemini Embedding 2构建：智能多模态RAG及其他应用

01:45Google AI69精选谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

01:39Google AI Developers58Gemini Embedding 2正式发布，解锁多模态RAG与视觉搜索

00:44向阳乔木61DeepSeek提出"视觉原语"多模态推理框架，用"指"的方式思考

00:44向阳乔木41DeepSeek-VL：面向真实场景的视觉语言模型

00:13Artificial Analysis64阿里发布Qwen3.6系列开源模型，27B版本成150B参数以下最强开源模型

4月30日周四

23:14Google DeepMind47多模态AI医疗助手研究新进展

23:13SenseTime59SenseNova U1 Lite系列：小规模多模态模型开源发布

23:10IT之家（RSS）72精选DeepSeek 公布多模态模型技术报告

22:13向阳乔木50DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

22:13向阳乔木60DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

22:13SenseTime37原生统一多模态迈向AGI关键一步

20:11歸藏(guizang.ai)51DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

17:11Qwen：Blog Retrieval（API）33Qwen-Scope：解码智能，释放潜能

16:09IT之家（RSS）50索尼新专利：AI 根据玩家情绪实时调整游戏难度

15:09HuggingFace Daily Papers（社区热门论文）55GLM-5V-Turbo：迈向多模态智能体的原生基础模型

15:09HuggingFace Daily Papers（社区热门论文）38FASH-iCNN：通过多模态CNN探针使时尚编辑身份可检视

14:52Alibaba Cloud68精选阿里云发布HappyHorse，实现秒级AI视频生成

14:22Alibaba Cloud33阿里云携手世泳联发起AI创意挑战赛

13:37阿绎 AYi43AI音乐产品也出来了，儿时的音乐梦想能实现的节奏啊

11:34IT之家（RSS）48打破纯文本限制，微软 OneNote 内置 AI 现支持理解表格 / 图像等

08:34IT之家（RSS）36消息称苹果 iOS 27 版相机新增 Siri 模式，AI 记录食品标签、名片、活动门票等

08:00HuggingFace Daily Papers（社区热门论文）47EDU-CIRCUIT-HW：在真实大学STEM课程学生手写解答上评估多模态大语言模型

08:00HuggingFace Daily Papers（社区热门论文）62MiniCPM-o 4.5：迈向实时全双工全模态交互

08:00HuggingFace Daily Papers（社区热门论文）44HERMES++：迈向3D场景理解与生成的统一驾驶世界模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月1日

08:10

Berryxia.AI@berryxia

54

Grok Image Agent网页版Beta上线，实现端到端创意制作

Grok Image Agent网页Beta版已向付费用户灰度推送。它是一个全能创意Agent，能在无限开放画布上独立完成从规划、生成、编辑到迭代的全流程创作。用户只需下达指令，即可观看其在同一无缝工作区内自动执行任务，例如生成一分钟电影短片、创作整套漫画或构建UGC产品故事。这标志着从简单提示词到端到端创意生产的真正飞跃，是Grok Imagine迄今为止最重大的升级。

X Freeze: Grok Imagine Agent Mode (Beta) just went live on Grok web It's a full creative agent working on one infinite open canvas...

智能体 xAI 产品更新图像生成

08:00

HuggingFace Daily Papers（社区热门论文）

51

面向定制化多模态角色扮演

本文提出定制化多模态角色扮演任务，旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制，并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集，并开发了名为UniCharacter的两阶段训练框架，包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例，模型即可习得目标角色特征，并在文本与图像生成中展现一致的角色表现，训练约需100 GPU小时。实验表明，该方法显著优于现有方案，消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。

arXiv Hugging Face 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

51

WildTableBench：针对真实场景表格图像理解的多模态基础模型基准评测

本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像，以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估，结果显示仅有一个模型准确率超过50%，其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

58

BlenderRAG：基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统，能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本（文本、代码、图像）的数据集，覆盖50种物体类别。在代码生成过程中，系统通过检索语义相似的示例来引导大语言模型，从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%，并将语义对齐度（CLIP相似度）从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件，可立即部署使用。相关数据集和代码已在GitHub开源。

arXiv GitHub 检索增强多模态

08:00

HuggingFace Daily Papers（社区热门论文）

50

持久视觉记忆：缓解大视觉语言模型中的视觉信号稀释问题

针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题，研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中，建立了一个与生成长度无关的检索路径，能直接提供视觉嵌入以维持精确的视觉感知，从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明，该模块以极小的参数开销带来了显著的性能提升，在4B和8B规模上均实现了平均准确率的稳定增长，尤其在需要持续视觉感知的复杂推理任务中表现突出。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

Online Self-Calibration Against Hallucination in Vision-Language Models

针对大型视觉语言模型普遍存在的幻觉问题，研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点，通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据，并采用直接偏好优化进行迭代训练。实验表明，OSCAR在多个幻觉基准测试中取得最优性能，同时提升了模型的通用多模态能力，避免了传统离线对齐方法中存在的监督-感知失配问题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

让ViT说话：生成式语言-图像预训练

本文提出生成式语言-图像预训练框架GenLIP，为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT，使其根据视觉token预测语言token，无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强，并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后，GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后，模型在OCR和图表理解等细节敏感任务上表现进一步提升。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

Map2World：基于分割地图的文本到3D世界生成

本文提出Map2World，一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界，确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节，在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识，即使在场景生成训练数据有限的情况下，也能实现跨领域的稳健泛化。实验表明，本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

UniVidX：基于扩散先验的统一多模态视频生成框架

UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成，核心设计包括：随机条件掩码，实现全向条件生成；解耦门控LoRA，为各模态引入独立适配器以保留骨干网络先验；跨模态自注意力，通过共享键值促进模态间信息交换。该框架在两个领域实例化：UniVid-Intrinsic用于RGB视频及其内在属性图；UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明，即使在少于1000个视频的小数据集上训练，模型也能在多种任务上达到先进性能，并能稳健地泛化到真实场景。

多模态视频论文/研究

07:15

Luma@LumaLabsAI

58

物体是对的。比例不对。上传你的参考图。设定尺寸。Luma Agents 会处理后续的缩放调整。立即调整 → http://lumalabs.ai/app

产品更新多模态

04:44

Luma@LumaLabsAI

精选60

为你的网站寻找外观。同时探索每个方向。定义目标，设定美学风格，然后让Luma Agents构建每个元素。英雄区域。文案。视觉效果。布局。所有内容都经过结构化设计，从首次滚动开始就旨在实现转化。立即构建 → http://lumalabs.ai/app

智能体产品更新多模态

推荐理由：Luma 从视频生成跨到建站，用 Agent 一次性生成整站，描述即站点，对想快速验证品牌页面的创业者是个有趣的新工具。

03:45

Suno@suno

56

Genki 如何将一段 16 小节即兴演奏变成 2000 年代摇滚曲目

多模态教程/实践

02:39

Rohan Paul@rohanpaul_ai

61

Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统，这是一个多模态代理系统，旨在辅助医护人员，并在医生监督下运行。系统采用双代理架构：一个模块与患者对话，另一模块实时监控交互边界，能检索并验证临床级证据。在开放式药物问答中，其表现超越前沿模型，更贴合真实医疗场景的复杂性。评估聚焦临床实际关切，如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中，医生对其偏好超过主流证据合成工具；在97例NOHARM风格评估中未出现严重错误。

Google DeepMind: AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...

DeepMind 多模态论文/研究

02:15

Google Gemini@GeminiApp

31

看看 @anyma_eva 如何与 Gemini 和 @googledeepmind 合作，消弭想象与创造之间的距离。🧵

DeepMind Google 多模态行业动态

02:13

Google Developers Blog（RSS）

精选62

基于Gemini Embedding 2构建：智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型，该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入，显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言，并提供任务特定前缀和马特廖什卡降维等特性，为构建复杂AI智能体提供高效精准的基础。

Google 检索增强多模态模型发布

推荐理由：开发者做多模态RAG的苦日子结束了，Gemini Embedding 2把文本、图片、视频塞进同一个语义空间，还自带Matryoshka降维，直接省掉一堆胶水代码。

01:45

Google AI@GoogleAI

精选69

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”，能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配，而是基于语义将不同模态的数据映射到同一空间，从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用，实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google 多模态搜索模型发布

推荐理由：Google 第一个原生多模态嵌入模型，把文本、图像、视频拉到同一个向量空间，做跨模态搜索的开发者可以不用再手动打标签了，但离「无感理解」还有距离。

01:39

Google AI Developers@googleaidevs

58

既然Gemini Embedding 2已正式发布，让我们探索该模型解锁的功能--从智能多模态RAG到视觉搜索--因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。

Google 检索增强多模态模型发布

00:44

向阳乔木@vista8

61

DeepSeek提出"视觉原语"多模态推理框架，用"指"的方式思考

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek 多模态推理论文/研究

00:44

向阳乔木@vista8

41

DeepSeek-VL：面向真实场景的视觉语言模型

DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计：数据构建强调从真实用户需求出发，并包含70%的纯文本以保留语言能力；模型架构创新性地采用SigLIP与SAM-B混合视觉编码器，兼顾高层语义与低层细节；训练策略则通过三阶段渐进式训练与模态平衡技术，有效缓解了视觉训练对语言能力的侵蚀，最终在同等规模下达到开源模型的顶尖水平。

DeepSeek 多模态教程/实践

00:13

Artificial Analysis@ArtificialAnlys

64

阿里发布Qwen3.6系列开源模型，27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型：27B密集模型和35B A3B混合专家模型。其中，Qwen3.6 27B在Artificial Analysis智能指数上得分46，成为150B参数以下最智能的开源模型，领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍，成本高出约21倍。两款模型均采用Apache 2.0许可，支持262K上下文，具备多模态能力。值得注意的是，其幻觉率较前代大幅下降，但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准

4月30日

23:14

Google DeepMind@GoogleDeepMind

47

AI协同临床医生是我们新的研究计划，旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

智能体 DeepMind Google 多模态

23:13

SenseTime@SenseTime_AI

59

SenseNova U1 Lite系列：小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型，在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成，具备强语义完整性和像素级精度；高布局一致性，实现准确可靠的文本渲染；以及行业首创的连续图像-文本生成，支持统一推理和一致视觉风格。该模型现已完全开源，相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布

23:10

IT之家（RSS）

精选72

DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告，提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元，旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题，使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低，其在多项挑战性计数和空间推理基准测试上的性能，可与GPT-5.4等前沿模型相媲美。

DeepSeek 多模态推理论文/研究

推荐理由：DeepSeek 把视觉概念直接变成推理单元，绕开了语言描述空间的先天模糊，在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平，做多模态应用的人值得细读。

22:13

向阳乔木@vista8

50

DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

DeepSeek 多模态开源生态现象/趋势

22:13

向阳乔木@vista8

60

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

22:13

SenseTime@SenseTime_AI

37

我们也相信，原生统一多模态智能是迈向通用人工智能（#AGI）的基础性一步 🙌

Hugging Models: Most multimodal stacks still work like this: Image encoder → LLM → generator → formatter Every handoff adds latency, com...

多模态现象/趋势

20:11

歸藏(guizang.ai)@op7418

51

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek 多模态论文/研究

17:11

Qwen：Blog Retrieval（API）

33

Qwen-Scope：解码智能，释放潜能

Qwen Studio 发布了一个集成了多种功能的综合平台。该平台的核心功能包括智能聊天机器人、图像与视频理解、图像生成以及文档处理。此外，它还整合了网络搜索能力，支持工具调用，并能生成可用的“工件”或成果物。这一系列功能旨在通过一个统一的界面，全面解码并释放人工智能在不同模态任务中的潜力。

产品更新多模态

16:09

IT之家（RSS）

50

索尼新专利：AI 根据玩家情绪实时调整游戏难度

索尼获批一项AI动态关卡生成专利。系统通过分析玩家行为判断其策略倾向（如潜行或进攻），并生成匹配的初始关卡。其核心是“反向挑战”机制：当玩家在擅长领域持续成功时，系统会切换关卡类型，针对其优势提出新挑战，以打破静态进度。同时，系统内置情绪监测，一旦检测到玩家过度受挫，会自动回调难度至适配其个人风格的状态。该技术旨在通过“支持-挑战-回调”的动态循环，平衡游戏挑战性与用户体验，防止玩家流失。

多模态行业动态

15:09

HuggingFace Daily Papers（社区热门论文）

55

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo是一个为多模态智能体设计的原生基础模型。其核心创新在于将多模态感知深度整合为推理、规划、工具使用和执行的核心组件，而非语言模型的附属接口。本报告概述了其在模型设计、多模态训练、强化学习、工具链扩展及与智能体框架集成等方面的系列改进。这些改进使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色，同时保持了有竞争力的纯文本编码能力。开发过程强调了多模态感知的中心地位、分层优化方法以及可靠的端到端验证，为构建多模态智能体提供了实践启示。

智能体多模态论文/研究

15:09

HuggingFace Daily Papers（社区热门论文）

38

FASH-iCNN：通过多模态CNN探针使时尚编辑身份可检视

FASH-iCNN是一个基于1991-2024年间15个品牌87,547张Vogue秀场图像训练的多模态系统，旨在将隐含的时尚美学逻辑转化为可检视的文化信号。该系统能根据服装图像识别其所属品牌、年代与色彩传统。纯服装模型在品牌识别上准确率达78.2%，年代识别达88.6%，特定年份识别为58.3%（平均误差仅2.2年）。分析表明，纹理与亮度是编辑身份的核心载体：移除颜色仅使品牌识别准确率下降10.6个百分点，而移除纹理则导致37.6个百分点的显著下降。该系统将编辑文化视作明确信号，揭示每个预测背后编码的特定品牌、编辑理念与历史时刻。

多模态论文/研究

14:52

Alibaba Cloud@alibaba_cloud

精选68

阿里云发布HappyHorse，实现秒级AI视频生成

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能：可生成影院级1080p高清画质；原生实现精准的音画同步，确保口型与声音对齐；在复杂场景和镜头切换中保持多镜头角色一致性；支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

多模态模型发布视频

推荐理由：阿里云终于放出视频生成模型，1080p+音频同步+秒级生成，功能直指 Sora 的短板。如果 demo 没修图，国产视频工具又多一个靠谱选择。

14:22

Alibaba Cloud@alibaba_cloud

33

每一次精彩的潜水都始于纵身一跃。我们正与@WorldAquatics携手，为您带来#潜入你的世界--一项由AI超级智能体MuleRun驱动的全球创意挑战。使用MuleRun创作惊艳的海报、视频、数据报告或网站。通过#潜入你的世界分享您的作品，赢取独家联名奖品。 4月30日至5月30日。您的世界正待探索。 → https://diveintoyourworld.mule.page/ #AlibabaCloud #CloudComputing #AI #AInnovation #LLM #WorldAquatics

多模态行业动态

13:37

阿绎 AYi@AYi_AInotes

43

作者对当前同质化的SaaS开发感到倦怠，质疑为何"独立开发"总被默认为做软件。他列举了销售Notion模板、壁纸等非软件产品获得可观收入的例子。受此启发，他将自身营销经验应用于音乐赛道，启动实验项目"Milo Ever"。仅用一周时间，他便创作并发布了全新AI音乐专辑《The Small World to Remember》。该专辑包含12首关于童年记忆的歌曲，旨在探索独立开发的更多可能性，并已通过此前发行的AI音乐专辑获得了超过6400美元的收入。

Luo说不啰嗦: 从上海 Let's Vision 2026 回来之后, 我整整一个月几乎没写代码了。不是因为忙, 是突然就觉得这件事没那么有意思了。这几年我反复经历一个循环: 做产品 → burn out → 怀疑 → 再继续做产品随着 vibe c...

多模态现象/趋势

11:34

IT之家（RSS）

48

打破纯文本限制，微软 OneNote 内置 AI 现支持理解表格 / 图像等

微软于4月29日宣布，为拥有Microsoft 365 Copilot许可的用户在Windows、macOS及iOS平台的OneNote应用推出AI功能更新。新版内置Copilot AI突破纯文本限制，新增对表格、图像及标签的理解与分析能力。例如在规划旅行时，AI可综合分析行程表格、检查清单和景点照片，智能排查行程漏洞并提供优化建议。该更新通过服务器端推送自动部署，用户无需手动更新，只需确保设备版本符合要求即可。

Microsoft 产品更新多模态

08:34

IT之家（RSS）

36

消息称苹果 iOS 27 版相机新增 Siri 模式，AI 记录食品标签、名片、活动门票等

苹果计划在 iOS 27 版相机应用中新增 Siri 模式，整合 Visual Intelligence 功能。该模式将与现有拍照模式并列显示，使智能视觉能力更易访问。功能包括扫描食品营养标签记录卡路里数据并同步至健康应用，识别名片信息添加联系人，以及扫描活动门票和会员卡生成数字版本存入钱包。此前需长按按钮激活的隐蔽操作被直接集成，提升用户使用便捷性。

产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

47

EDU-CIRCUIT-HW：在真实大学STEM课程学生手写解答上评估多模态大语言模型

研究团队发布了EDU-CIRCUIT-HW数据集，包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告，同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现，模型识别的手写内容中存在大量潜在错误，表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明，通过识别错误模式进行预先检测与纠正，仅需极少人工干预（例如将3.3%的作业交由人工评分），即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

MiniCPM-o 4.5：迈向实时全双工全模态交互

当前多模态大语言模型在交互范式上存在瓶颈，感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架，将多模态输入输出对齐到共享时间轴，实现实时全双工全模态交互，支持同时感知与响应，并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿，在视觉语言能力上接近 Gemini 2.5 Flash，在全模态理解上超越 Qwen3-Omni-30B-A3B，且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化，模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。

多模态模型发布端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

HERMES++：迈向3D场景理解与生成的统一驾驶世界模型

现有驾驶世界模型多专注于未来场景生成，而大语言模型虽具推理能力却无法预测几何演变，导致语义理解与物理模拟之间存在鸿沟。为此，我们提出HERMES++，一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括：利用BEV表征整合多视角空间信息；引入LLM增强的世界查询以促进知识迁移；设计“当前-未来链接”来弥合时序差距，使几何演变基于语义上下文；以及采用联合几何优化策略，整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中，HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法，展现出卓越性能。模型与代码已开源。

具身智能多模态论文/研究

1…41 424344 45…50