DepthVLM框架通过为大型语言模型主干附加轻量级深度头,并采用统一视觉-文本监督范式与两阶段训练策略,将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出,推理效率更高。实验表明,其性能显著超越现有视觉语言模型和领先的纯视觉模型,并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。
DepthVLM框架通过为大型语言模型主干附加轻量级深度头,并采用统一视觉-文本监督范式与两阶段训练策略,将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出,推理效率更高。实验表明,其性能显著超越现有视觉语言模型和领先的纯视觉模型,并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。
研究针对需要点级精度的几何图形界面控制任务,揭示了现有视觉-语言模型存在的语义-执行鸿沟:通用模型动作类型准确率高但任务成功率极低。为此,我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准,并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务,结合像素接地监督调优与精度对齐强化学习,将任务成功率提升至最强通用基线的4.1倍,步骤成功率从GUI专用智能体的不足9%提高到62%以上,实现了点精确GUI控制的新突破。
针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题,本文提出WorldAct框架。该框架利用多模态智能体引导场景分解,识别可操作对象,并重建几何对齐的物体级网格以支持交互,同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下,支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明,WorldAct能比原始生成场景实现更丰富的交互,为构建可编辑、可交互的3D世界模型提供了可行方案。
在联发科天玑开发者大会 MDDC 2026 上,OPPO 发布了行业首个端侧 AIGC 光影处理引擎。该引擎基于自研 DiT 架构生成式大模型,用户无需联网即可在手机本地优化暗光、逆光等复杂光线下的照片,还原自然光影,效果接近云端模型水平。大会同期还展示了多项端侧 AI 技术:AI 翻译出词速率达每秒 300 个词元;端侧全模态 Omni 模型支持视频、语音、文本多模态输入与实时交互;手机超级助手“小布 Claw”能基于本地数据提供个性化 AI 内容生成与建议,确保数据隐私安全。
微软升级了 Edge 浏览器的 Copilot AI 助手,新增多项功能。Copilot 现在能一次性读取所有已打开的浏览器标签页内容,并基于这些信息进行产品比较或文章总结。此次更新还引入了长期记忆能力、将标签页内容转换为 AI 播客的工具,以及问答测验模式。这些增强功能旨在提升用户在多任务浏览和信息处理时的效率,并拓展了在 LinkedIn 等平台的内容创作辅助场景。
看到科技发布Meeting Pro 2视频会议一体机,定价9899元。该设备支持4K分辨率与HDR影像,具备360度实时人像采集功能,并利用AI人脸与语音算法追踪发言者。其内置智能导播可根据参会人数自动切换视窗,最多支持8人同屏显示。设备集成8麦克风阵列与AI降噪技术,能生成20多种语言的实时字幕、会议纪要和内容回溯。产品兼容全球主流会议平台。
研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。
针对一致性蒸馏模型在测试时增加采样步数性能下降的问题,研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习,从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术,通过将完整的欧拉展开分解为捷径流图转换,实现了高效的在线策略蒸馏,有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明,在13亿至140亿参数规模的双向与因果架构上,AnyFlow在少步采样中性能匹配或超越基于一致性的模型,并能随采样步数增加持续提升效果。
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。
针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。
现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。
针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。
MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器,将公开交互轨迹转化为技能,过程包括工作流分组、程序归纳与视觉定位。使用时,采用分支加载架构:在临时分支中检视选定的状态卡片与关键帧,将其与实时环境对齐并提炼为结构化指导,供主智能体决策。在GUI和游戏基准测试中,该框架能持续提升不同规模多模态智能体的性能,证明外部多模态知识能有效补充模型内部先验。
Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。
Luma 正式开放其 Uni-1.1 图像模型的 API 服务。该模型在 Arena 排行榜上位列第三,紧随 Google 和 OpenAI 之后。API 定价为每张 2048 像素分辨率图像 0.04 美元起,与行业领先者价格相当。其功能包括网络搜索、内置推理能力,并支持最多 9 张参考图像输入。
谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。
针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。
小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。
小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。
据韩媒报道,三星或将于2026年7月22日在伦敦的Galaxy Unpacked发布会上推出其首款智能眼镜。该产品旨在对标Meta Ray-Ban,研发已超一年,将推出两个版本:一款配备类似XREAL的内置显示屏,另一款则无AR显示屏。两者均采用墨镜式设计,集成摄像头、扬声器和麦克风,并有望成为首款出厂预装Android XR系统的智能眼镜。更多细节与售价预计在临近发布时公布。
谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。
据韩媒报道,三星计划于7月22日在伦敦举办Galaxy Unpacked活动。届时除了发布Galaxy Z Fold8和Galaxy Z Flip8,还将推出新款宽折叠手机Galaxy Z Fold8 Wide,旨在细分市场并对标预计九月发布的苹果iPhone Ultra。同时,三星可能推出其首款智能眼镜Galaxy Glasses。该产品与Gentle Monster合作设计,搭载Android XR系统并集成Gemini AI,强调通过摄像头和语音进行实时交互。三星希望将其打造为AI生态核心设备,并与SmartThings智能家居平台及汽车服务联动,拓展连接场景。
面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B,仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型,Artificial Analysis 评测得 13 分。效率方面,Token 吞吐量为竞品的 1.5 倍,计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构,图像编码计算量降低 55.8%,并支持高分辨率图像快速处理。目前已全面开源,提供完整工具链,适配主流微调与推理框架。
微软CEO纳德拉宣布,其AI安全框架MDASH在5月补丁星期二中,协助发现了Windows 11系统120个已修复漏洞中的16个。MDASH是一个协调超过100个专用智能体的多模型扫描框架,采用对抗式流程以减少误报。该系统在私有驱动测试中实现零误报;在历史漏洞回溯中对特定组件召回率高达96%和100%;并在CyberGym公共基准测试中以88.45%的成绩领先。发现的漏洞涵盖多个关键组件,其中10个为内核态漏洞,包括严重的远程未授权释放后使用等问题。
本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。
针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。
VidSplat是一个免训练的生成式重建框架,旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验,迭代合成能够补偿缺失覆盖范围的新视角,从而从稀疏输入中恢复完整的3D场景。其核心创新包括:提出一种免训练的分阶段去噪策略,利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构;开发了一种迭代机制,通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性,在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。
MoCam 提出了一种基于结构化去噪动态的新视角合成方法,旨在解决几何先验与外观先验在生成过程中的根本矛盾。该方法在扩散过程的早期阶段利用几何先验锚定粗略结构并容忍其不完整性,随后在后期阶段切换至外观先验以主动修正几何错误并细化细节。这种时序解耦设计自然统一了静态与动态视角合成。实验表明,MoCam 在点云存在严重孔洞或畸变时显著优于现有方法,实现了稳健的几何-外观解纠缠。
研究团队提出CausalCine,一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示,并复用历史上下文。其核心是内容感知记忆路由(CAMR)机制,该机制依据注意力相关性动态检索历史关键信息,而非依赖时间邻近性,从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换,再将其蒸馏为少步生成器以实现实时交互。实验表明,CausalCine显著优于自回归基线,并接近双向模型能力,同时解锁了流式交互性。
针对现有方法在处理复杂交错指令时性能下降的问题,研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令,通过将视觉特征直接定位在对应语义位置,利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎,从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明,INSET在多图像一致性和文本对齐上显著优于现有方法,且优势随输入复杂性增加而扩大。此外,该模型能自然扩展到多模态图像编辑领域,实现高度表达性的视觉操控。
现有视觉分词方法仅利用预训练编码器最后一层特征,丢弃了中间层的丰富信息。本研究提出DRoRAE,通过一个轻量级融合模块,采用能量约束路由与增量校正自适应聚合所有编码器层,生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上,该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律,从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。
本文研究开放世界视觉感知,提出“感知深度研究”挑战,即需先借助外部事实、事件或长尾知识解析可见对象身份,再进行像素级定位。为此,作者发布了WebEye基准,包含120张图像、473个对象实例及三个任务视图,并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明,Pixel-Searcher在开源模型中性能最优,主要失败源于证据获取、身份解析和视觉实例绑定环节。
SenseNova-U1基于NEO-unify架构,首次将多模态理解与生成统一为单一原生范式,解决了传统视觉语言模型中两者割裂的问题。模型发布了8B参数稠密基线版本与30B激活参数混合专家基线版本。它们在文本理解、视觉语言感知、知识推理等任务上媲美顶尖纯理解模型,同时在图像合成、图文生成等任务中表现出优秀的语义一致性与视觉保真度。初步证据表明,该架构可进一步扩展至视觉语言动作与世界模型场景,为实现原生跨模态思考与行动提供了技术路径。
联发科技在2026天玑开发者大会上宣布,天玑汽车平台出货量已突破3500万,过去五年增长超过385%。该平台与全球超过20家头部车企合作,进行中的定点项目超190个。AI定义汽车时代已来临,天玑AIDV智能体座舱支持全模态交互、主动式服务、并发任务执行和端云协同,赋能智能汽车体验创新。