全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1243 条

全部一手资讯 X 论文

标签「多模态」清除

5月26日周二

11:18HuggingFace Daily Papers（社区热门论文）61迈向原生多模态建模：一份路线图

11:18HuggingFace Daily Papers（社区热门论文）70精选WBench：面向交互式世界模型评估的多轮基准

11:18HuggingFace Daily Papers（社区热门论文）66TriSplat：面向仿真的前馈式3D场景重建网络

11:11IT之家（RSS）32用户反馈智能家居版谷歌 Gemini AI 短板：猫当成浣熊，袋鼠识别为"人"

10:18HuggingFace Daily Papers（社区热门论文）63MetaphorVU：迈向隐喻视频理解

08:00HuggingFace Daily Papers（社区热门论文）39MERIT：用于音频相似度学习的解耦音乐表示

08:00HuggingFace Daily Papers（社区热门论文）54PANDO：通过在线技能蒸馏实现高效多模态AI智能体

08:00HuggingFace Daily Papers（社区热门论文）56OmniInteract：实时全模态助手的真实场景流式交互基准测试

08:00HuggingFace Daily Papers（社区热门论文）55如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

08:00HuggingFace Daily Papers（社区热门论文）61Chartographer：用于评估视觉语言模型的反事实图表生成

5月25日周一

18:49蚂蚁 inclusionAI：HuggingFace 新模型71同事件精选<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

15:25蚂蚁 inclusionAI：GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

08:00HuggingFace Daily Papers（社区热门论文）44StreamChar：面向角色动画的流式音视频生成框架

08:00HuggingFace Daily Papers（社区热门论文）57通过多视角基础模型的统一全景几何估计

08:00HuggingFace Daily Papers（社区热门论文）56Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

08:00HuggingFace Daily Papers（社区热门论文）60推进大型多模态模型的创造性物理智能

08:00HuggingFace Daily Papers（社区热门论文）61重新思考VLA初始化中的VLM表征

08:00HuggingFace Daily Papers（社区热门论文）53LLaVA-OneVision-2：迈向新一代感知智能

08:00HuggingFace Daily Papers（社区热门论文）56LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

08:00HuggingFace Daily Papers（社区热门论文）68看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

08:00HuggingFace Daily Papers（社区热门论文）61从多模态大语言模型中挖掘主体驱动生成能力

5月24日周日

21:57The Decoder：AI News（RSS）59字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

14:11IT之家（RSS）47消息称苹果 iOS 27 将升级相机、照片应用：增加自定义选项，补全视觉智能

13:11IT之家（RSS）48全球首款机器人手机：荣耀 Robot Phone 真机现身高通骁友会五周年派对

08:00HuggingFace Daily Papers（社区热门论文）64注入视觉概念：在推理时向文本条件扩散模型注入图像引导

08:00HuggingFace Daily Papers（社区热门论文）63Macaron-A2UI：面向个人智能体的生成式UI模型

08:00HuggingFace Daily Papers（社区热门论文）56ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

08:00HuggingFace Daily Papers（社区热门论文）65你的嵌入模型，比你想象的更SMART

5月23日周六

19:05The Verge：AI（RSS）54谷歌发布"万能"AI模型：表现惊人

15:09IT之家（RSS）63OpenAI ChatGPT 解锁 AI 填表技能：图像识别、语音输入和自动补全

08:16Hugging Face：Blog（RSS）63精选NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

08:00HuggingFace Daily Papers（社区热门论文）43物理AI中的静默故障：自主系统运行时动作授权的文献综述

08:00HuggingFace Daily Papers（社区热门论文）43面向应用对地观测的组合图像检索基准评测

08:00HuggingFace Daily Papers（社区热门论文）55VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

01:30Apple Machine Learning Research（RSS）66精选VSAS-Bench：视觉流式辅助模型的实时评估基准

00:28Tomer Tunguz 博客（VC 分析）70精选可塑界面：AI驱动的未来软件形态

00:05TechCrunch：AI（RSS）46我们试用了Google的AI眼镜，它们已接近成熟

5月22日周五

23:16HuggingFace Daily Papers（社区热门论文）55AnyMo：一种设置无关的可穿戴IMU运动理解框架

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月26日

11:18

HuggingFace Daily Papers（社区热门论文）

61

迈向原生多模态建模：一份路线图

本文提出了从多模态无关推理迈向世界建模的路径，聚焦从后期融合范式转向原生多模态建模（NMM）。研究正式定义了架构的原生性，将中期融合与早期融合从非原生范式中区分，并依据输入输出对偶性将现有原生模型分为三类：用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”，以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径，涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究

11:18

HuggingFace Daily Papers（社区热门论文）

精选70

WBench：面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

arXiv 多模态视频论文/研究

推荐理由：视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

11:18

HuggingFace Daily Papers（社区热门论文）

66

TriSplat：面向仿真的前馈式3D场景重建网络

TriSplat是一种前馈式3D场景重建网络，采用定向三角形基元表示场景。它能直接从稀疏视角图像，通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿，并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明，其几何保真度优于基于高斯的前馈基线，同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用，无需额外转换。

具身智能多模态论文/研究

11:11

IT之家（RSS）

32

用户反馈智能家居版谷歌 Gemini AI 短板：猫当成浣熊，袋鼠识别为"人"

澳大利亚用户反馈，智能家居版 Gemini for Home 在摄像头画面中出现识别错误：将猫误判为浣熊，把袋鼠和沙袋鼠错误归类为“人”，并将当地常见的多用途车辆 ute 统一标为普通卡车。用户表示即使已开启个性化功能并设置位置为澳大利亚，这些误识别问题仍持续出现。

Google 多模态行业动态

10:18

HuggingFace Daily Papers（社区热门论文）

63

MetaphorVU：迈向隐喻视频理解

为系统评估多模态大语言模型（MLLMs）对隐喻视频的理解能力，研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现，当前 MLLMs 在隐喻视频理解上表现不佳，远未达到人类水平，主要缺陷在于跨域映射能力不足。为此，团队构建了一个隐喻知识图谱进行映射增强，并提出了推理时增强框架 MetaphorBoost，该框架实现了性能的持续提升。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

39

MERIT：用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架，旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题，MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略，以鼓励训练数据中出现单因素的变化。评估结果显示，MERIT 实现了强大的因子解耦性，每个表示头对其目标感知维度有强烈响应，而在其他维度上表现接近随机，这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

PANDO：通过在线技能蒸馏实现高效多模态AI智能体

多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹，识别出重复动作循环等低效来源，并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库，结合反思、分层路由、视觉压缩等技术。在 910 个任务上，其成功率达 58.3%，优于 SGV (54.0%) 和 WALT (45.2%)，且 token 消耗分别减少 58% 和 61%，无需预评估预算。消融研究也验证了其高效性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

OmniInteract：实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频，定义了1,430个需要模型在线响应的时段：1,062个涵盖实时、主动与嵌套场景的单问单答时段，以及368个多问多答时段。模型必须处理原始音视频流，且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明，当前模型在流式交互上表现薄弱，最优的整体IA-QTF1分数仅为0.368。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节，因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题，但模型常忽略这些视觉证据。研究提出View Dropout训练策略，通过隐藏部分输入视图的应答区域，同时保持思考图像token可见，来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡，并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后，结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置，实现了最佳跨域泛化。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Chartographer：用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限，模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力，研究提出了“反事实图表”方法，即在保持图表-问答任务不变的前提下，改变底层图表及其答案。为此，研究引入了Chartographer框架，该框架能将图表逆向工程为可执行代码，验证重建保真度，生成种子可控的变体，并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集，研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明，反事实图表揭示了单一图表测试所隐藏的失败：模型在正确回答原始图表后，往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准

5月25日

18:49

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选71

<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族，包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类，部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估，提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁的 SingGuard 把安全策略变成了运行时输入，意味着审核规则可以随时改而不必重训模型，这对做内容安全的产品人是真省事，值得跟进。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选68

inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族，版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入，支持文本、图像、图文及多语言场景的查询侧

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：SingGuard把安全策略变成运行时输入，不用再为新规则重新训练模型，这对需要频繁调整审核标准的团队来说是个实用的发布。

15:25

蚂蚁 inclusionAI：GitHub 新仓库

精选67

蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族，提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入，支持文本、图像、图文、多语言及查询/回复侧的安全评估，无需重新训练即可适配不同规则。采用快慢动态推理机制，在低延迟场景下输出紧凑判断，对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由：蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型，换审核规则不用重训，对需要快速适配法规的团队是个真需求。不过生态刚起步，暂时还是小众工具。

08:00

HuggingFace Daily Papers（社区热门论文）

44

StreamChar：面向角色动画的流式音视频生成框架

StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件，再由联合音视频DiT执行局部双向去噪。为实现高效部署，框架采用两阶段蒸馏流水线。此外，利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明，StreamChar在单张H100 GPU上能实时运行，并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

通过多视角基础模型的统一全景几何估计

PaGeR（全景几何重建）是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构，通过最小化改动并混合透视与全景图像进行训练，使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能，能够在室内和室外环境中从单张全景图像估计几何一致的360度场景，展现出卓越的零样本性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

Fast-dDrive是一种块扩散视觉语言-动作模型，旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼，同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架，并采用分段感知训练，优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均，以低成本有效抑制预测方差。实验表明，Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩，在nuScenes上将平均L2误差降至0.32米（提升22%），集成SGLang后较自回归基线实现12倍吞吐量提升。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型（LMMs）在开放环境中发现物理可行视觉解决方案的能力。为此，推出了MM-CreativityBench基准，用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明，当前LMMs因无法维持扎根式探索而表现不佳，常忽略实体、检查不足或产生模型幻觉。为此，研究提出功能可供性扎根对齐方法，将创造性工具使用建模为偏好学习问题，利用DPO引导模型选择基于视觉证据的推理，并结合可供性知识库监督，以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考VLA初始化中的VLM表征

视觉-语言-动作（VLA）模型常以预训练视觉-语言模型（VLM）为骨干，但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题，沿三个轴实验：具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致，取决于下游瓶颈。LoRA比全量微调更可靠，表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升，最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时，保留预训练VLM中对动作学习有用的表征。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习（RLVR）视觉推理方法在处理多源输入时，常将其视为简单信息堆叠，缺乏机制区分融合带来的信息增益与噪声干扰，导致多源性能可能低于单源。为此，本文提出MARS框架，将每种视觉模态建模为独立信息源，并以单源奖励为动态锚点，将多源融合引入的信息增益显式纳入优势归一化过程，以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明，该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像，存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型（MLLMs）之上，并引入基于VAE的身份条件。通过设计双层聚合（DLA）模块汇聚多层次的MLLM特征，以及采用多阶段去噪策略，在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明，该方法能协调多模态理解与身份保留，缓解复制粘贴问题，并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究

5月24日

21:57

The Decoder：AI News（RSS）

59

字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明，一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时，比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍，该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式，优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究

14:11

IT之家（RSS）

47

消息称苹果 iOS 27 将升级相机、照片应用：增加自定义选项，补全视觉智能

苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能，允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面，并强化专业控制。同时，视觉智能功能将以全新 Siri 形态集成至相机，新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具，分别对应生成式填充、自动优化画质以及调整空间照片构图。

产品更新图像生成多模态

13:11

IT之家（RSS）

48

全球首款机器人手机：荣耀 Robot Phone 真机现身高通骁友会五周年派对

荣耀Robot Phone真机在高通骁友会五周年派对上首次公开亮相，作为全球首款机器人手机。该机顶部集成三轴云台相机，搭载2亿像素传感器，支持AI物体追踪、视频剪辑与实时感知补偿功能，定位为新形态具身智能AI终端。外观为银灰色机身搭配拉丝边框，背面印有“α”Logo，此前已在MWC 2026展会展示。据悉，该机将于2026年第三季度正式上市。

产品更新具身智能多模态

08:00

HuggingFace Daily Papers（社区热门论文）

64

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

Macaron-A2UI：面向个人智能体的生成式UI模型

为突破个人智能体静态文本交互的瓶颈，生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型，旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作，用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库，引入A2UI-Bench评测基准，并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分，超越了全schema前沿基线。模型、基准与评测协议均已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv 多模态开源生态搜索

5月23日

19:05

The Verge：AI（RSS）

54

谷歌发布"万能"AI模型：表现惊人

Google发布了新款Gemini AI模型，其核心特点是能跨模态处理“万物到万物”的生成任务，例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验，展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识，即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及，同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。

Google 多模态教程/实践视频

15:09

IT之家（RSS）

63

OpenAI ChatGPT 解锁 AI 填表技能：图像识别、语音输入和自动补全

OpenAI于5月23日宣布为ChatGPT新增“AI填表”功能。用户上传表单图像后，可通过语音或文字指令描述需填写内容，系统将自动识别表单字段并完成信息补全。该功能整合了图像理解、语音交互与内容生成技术，实现“对话式”自动填写。目前输出为静态图片而非可编辑文档，且对上传文件清晰度有一定要求。

OpenAI 产品更新多模态

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

08:00

HuggingFace Daily Papers（社区热门论文）

43

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

43

面向应用对地观测的组合图像检索基准评测

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub 多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

00:28

Tomer Tunguz 博客（VC 分析）

精选70

可塑界面：AI驱动的未来软件形态

Salesforce已采用无头架构，允许销售人员通过AI直接更新数据，许多公司正通过MCPs跟进。同时，AI专家们正推动超越纯文本、更丰富的界面（如HTML），支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端，而是支持多种可塑化界面（如音频、网页）。未来软件的核心价值在于动态管理这些界面、确保其准确性，并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失，而是变得“可塑”，能按需变形。

多模态现象/趋势

推荐理由：动态 UI 不是消灭界面，而是让界面变得可塑性。Airbnb CEO 和 Anthropic 工程师都在押注 HTML 输出，这篇文章把信号串了起来，做产品的人值得一看。

00:05

TechCrunch：AI（RSS）

46

我们试用了Google的AI眼镜，它们已接近成熟

Google展示了运行Android XR操作系统的原型智能眼镜，该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进，其核心在于将实时AI处理能力与日常视觉场景深度融合。

Google 多模态评测/基准

5月22日

23:16

HuggingFace Daily Papers（社区热门论文）

55

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究

1…13 141516 17…32