本文提出了从多模态无关推理迈向世界建模的路径,聚焦从后期融合范式转向原生多模态建模(NMM)。研究正式定义了架构的原生性,将中期融合与早期融合从非原生范式中区分,并依据输入输出对偶性将现有原生模型分为三类:用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”,以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径,涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。
本文提出了从多模态无关推理迈向世界建模的路径,聚焦从后期融合范式转向原生多模态建模(NMM)。研究正式定义了架构的原生性,将中期融合与早期融合从非原生范式中区分,并依据输入输出对偶性将现有原生模型分为三类:用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”,以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径,涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。
WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。
澳大利亚用户反馈,智能家居版 Gemini for Home 在摄像头画面中出现识别错误:将猫误判为浣熊,把袋鼠和沙袋鼠错误归类为“人”,并将当地常见的多用途车辆 ute 统一标为普通卡车。用户表示即使已开启个性化功能并设置位置为澳大利亚,这些误识别问题仍持续出现。
为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。
MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。
多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹,识别出重复动作循环等低效来源,并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库,结合反思、分层路由、视觉压缩等技术。在 910 个任务上,其成功率达 58.3%,优于 SGV (54.0%) 和 WALT (45.2%),且 token 消耗分别减少 58% 和 61%,无需预评估预算。消融研究也验证了其高效性。
OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。
跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。
现有图表问答基准测试存在局限,模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力,研究提出了“反事实图表”方法,即在保持图表-问答任务不变的前提下,改变底层图表及其答案。为此,研究引入了Chartographer框架,该框架能将图表逆向工程为可执行代码,验证重建保真度,生成种子可控的变体,并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集,研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明,反事实图表揭示了单一图表测试所隐藏的失败:模型在正确回答原始图表后,往往无法在更新图表需要全新视觉推理路径时成功泛化。
<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族,提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入,支持文本、图像、图文、多语言及查询/回复侧的安全评估,无需重新训练即可适配不同规则。采用快慢动态推理机制,在低延迟场景下输出紧凑判断,对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。
StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件,再由联合音视频DiT执行局部双向去噪。为实现高效部署,框架采用两阶段蒸馏流水线。此外,利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明,StreamChar在单张H100 GPU上能实时运行,并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。
PaGeR(全景几何重建)是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构,通过最小化改动并混合透视与全景图像进行训练,使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能,能够在室内和室外环境中从单张全景图像估计几何一致的360度场景,展现出卓越的零样本性能。
Fast-dDrive是一种块扩散视觉语言-动作模型,旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼,同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架,并采用分段感知训练,优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均,以低成本有效抑制预测方差。实验表明,Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩,在nuScenes上将平均L2误差降至0.32米(提升22%),集成SGLang后较自回归基线实现12倍吞吐量提升。
该研究评估了大型多模态模型(LMMs)在开放环境中发现物理可行视觉解决方案的能力。为此,推出了MM-CreativityBench基准,用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明,当前LMMs因无法维持扎根式探索而表现不佳,常忽略实体、检查不足或产生模型幻觉。为此,研究提出功能可供性扎根对齐方法,将创造性工具使用建模为偏好学习问题,利用DPO引导模型选择基于视觉证据的推理,并结合可供性知识库监督,以减少幻觉并提升实体与部件选择能力。
视觉-语言-动作(VLA)模型常以预训练视觉-语言模型(VLM)为骨干,但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题,沿三个轴实验:具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致,取决于下游瓶颈。LoRA比全量微调更可靠,表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升,最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时,保留预训练VLM中对动作学习有用的表征。
LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术,通过分析压缩视频的比特成本动态进行自适应分组,并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标,并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中,其 8B 版本达到 74.9 分的 mAP,显著超越 Qwen3-VL-8B(30.1 分),且在匹配 token 预算下,编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。
LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例,覆盖文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件模态。该基准采用分类引导构建方法,并整合了统一评估框架。该框架结合了多模态大模型(MLLM)辅助评估与多种感知及多模态指标,例如 DINO-v2、ArcFace、CLIP 和 ImageBind,对超过 20 个细粒度维度进行评分,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证,LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。
现有基于可验证奖励的强化学习(RLVR)视觉推理方法在处理多源输入时,常将其视为简单信息堆叠,缺乏机制区分融合带来的信息增益与噪声干扰,导致多源性能可能低于单源。为此,本文提出MARS框架,将每种视觉模态建模为独立信息源,并以单源奖励为动态锚点,将多源融合引入的信息增益显式纳入优势归一化过程,以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明,该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。
现有主体驱动生成方法因分别编码文本与参考图像,存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型(MLLMs)之上,并引入基于VAE的身份条件。通过设计双层聚合(DLA)模块汇聚多层次的MLLM特征,以及采用多阶段去噪策略,在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明,该方法能协调多模态理解与身份保留,缓解复制粘贴问题,并在人类偏好评估中取得优越性能。
字节跳动 Seed 团队的研究表明,一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时,比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍,该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式,优于传统上对页面内容进行转录的训练方法。
苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能,允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面,并强化专业控制。同时,视觉智能功能将以全新 Siri 形态集成至相机,新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具,分别对应生成式填充、自动优化画质以及调整空间照片构图。
荣耀Robot Phone真机在高通骁友会五周年派对上首次公开亮相,作为全球首款机器人手机。该机顶部集成三轴云台相机,搭载2亿像素传感器,支持AI物体追踪、视频剪辑与实时感知补偿功能,定位为新形态具身智能AI终端。外观为银灰色机身搭配拉丝边框,背面印有“α”Logo,此前已在MWC 2026展会展示。据悉,该机将于2026年第三季度正式上市。
Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间,实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化(PNO)模块。实验表明,VCF 能从参考图像转移风格、构图和调色板等视觉属性,同时遵循文本提示。定量结果显示,其文本对齐度(CLIP 分数)与视觉相似度(LPIPS)之间存在权衡,但在参考保真度上优于基线方法。
为突破个人智能体静态文本交互的瓶颈,生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型,旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作,用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库,引入A2UI-Bench评测基准,并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分,超越了全schema前沿基线。模型、基准与评测协议均已开源。
针对图像描述生成强化学习中的奖励粒度不足问题,提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述,多模态评判器枚举两者间可验证的视觉声明差异,分配错误类型与严重程度,并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明,该框架在多个基准上改善了事实性与覆盖率的平衡,在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。
SMART是一个框架,旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互,实现即插即用的性能提升。研究表明,SMART能提升包括最先进模型在内的多模态检索性能,在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力,还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。
Google发布了新款Gemini AI模型,其核心特点是能跨模态处理“万物到万物”的生成任务,例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验,展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识,即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及,同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。
OpenAI于5月23日宣布为ChatGPT新增“AI填表”功能。用户上传表单图像后,可通过语音或文字指令描述需填写内容,系统将自动识别表单字段并完成信息补全。该功能整合了图像理解、语音交互与内容生成技术,实现“对话式”自动填写。目前输出为静态图片而非可编辑文档,且对上传文件清晰度有一定要求。
NVIDIA 发布 Nemotron-Labs Diffusion 系列,含 3B、8B、14B 文本模型和 8B 视觉-语言模型(VLM),均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散(逐块并行生成后逐步精炼)和自推测(扩散草拟候选 token 再自回归验证)三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%,扩散模式每次前向传递的 token 数(TPF)达自回归的 2.6 倍,自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调,代码与模型已发布于 HuggingFace 和 GitHub,推理将获 SGLang 支持。
物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于,黑盒模型可能自信、看似合理地发出动作,但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展,指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。
论文建立了针对遥感组合图像检索(RSCIR)的统一基准评测框架。研究在PatternCom数据集上,系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时,引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明,无需训练的组合方法可作为遥感图像检索强健且可扩展的基线;而以变化为中心的检索任务,因需保持场景身份不变,带来了与基于属性检索不同的挑战。
翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距,常忽视识别多样字符形态所需的细粒度视觉细节,导致在此任务上表现不佳。为此,本研究提出VaaWIT框架,它通过双流注意力模块实现多语义特征与视觉细节的双向交互,并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明,该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型,性能可与闭源模型相媲美。
现有视觉语言模型框架主要在离线场景下评估性能,但实时视觉助手所依赖的流式模型还需考量额外指标,如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此,研究团队提出了VSAS-Bench,这是一个新的评估基准,专门针对流式视觉语言模型在实时交互任务中的表现,填补了当前评估方法在动态、持续生成场景下的空白。
Salesforce已采用无头架构,允许销售人员通过AI直接更新数据,许多公司正通过MCPs跟进。同时,AI专家们正推动超越纯文本、更丰富的界面(如HTML),支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端,而是支持多种可塑化界面(如音频、网页)。未来软件的核心价值在于动态管理这些界面、确保其准确性,并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失,而是变得“可塑”,能按需变形。
Google展示了运行Android XR操作系统的原型智能眼镜,该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进,其核心在于将实时AI处理能力与日常视觉场景深度融合。
针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置,难以跨设备迁移的挑战,本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真,在身体表面密集采样生成多样合成信号,用于预训练图编码器。随后,将多位置IMU信号转化为全身运动标记,并与大语言模型对齐以理解运动语义。实验表明,AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升,证明了其作为野外可穿戴运动理解通才模型的潜力。