本文针对多模态深度搜索代理提出两项改进。首先,设计了一个以图像库引用协议为核心的视觉原生代理框架,将工具返回的图像注册为可寻址引用,使中间视觉证据能被后续工具复用。其次,在此基础上构建了策略上数据演化框架,通过运行闭环数据生成器,依据被训练策略的推演结果进行多轮自我优化,使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中,该方法显著提升了不同规模代理模型的性能,分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。
本文针对多模态深度搜索代理提出两项改进。首先,设计了一个以图像库引用协议为核心的视觉原生代理框架,将工具返回的图像注册为可寻址引用,使中间视觉证据能被后续工具复用。其次,在此基础上构建了策略上数据演化框架,通过运行闭环数据生成器,依据被训练策略的推演结果进行多轮自我优化,使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中,该方法显著提升了不同规模代理模型的性能,分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。
Gemini API 的文件搜索功能现已升级为多模态版本。此次更新允许开发者上传并搜索图像、PDF、PPT 和 Word 等多种格式的文件,突破了此前仅支持文本文件的限制。该功能基于检索增强生成技术,能同时处理文本和视觉信息,从上传的文档中提取关键内容以生成更准确的回答。这一变化旨在帮助开发者更高效地构建能理解和分析复杂多模态数据的应用程序。
央视调查发现,部分电商平台评论区出现未标注的AI生成“买家秀”图片。这些图片效果精美,但与实物相差甚远,误导消费者判断商品质量。商家利用AI工具快速生成模特穿搭图,用于商品详情页和评论区,而平台审核机制不完善,未能有效识别和标注此类AI生成内容。此举涉嫌违反《电子商务法》和《消费者权益保护法》中关于真实披露信息、禁止虚假宣传的规定,侵犯了消费者的知情权和选择权。
强化微调(RFT)相比监督微调更抗遗忘,但在视觉持续学习任务中仍有显著遗忘。通过分析发现,瓶颈在于“轨迹级漂移无意识”:即相同任务奖励下,不同轨迹的KL散度差异大,与遗忘强相关。为此,提出保留感知策略优化(RaPO)方法,通过轨迹级奖励塑形来缓解遗忘。该方法包含保留奖励和跨任务优势归一化(CTAN)两个核心组件,分别将漂移转化为奖励信号和跨任务稳定优化。实验证明,RaPO在五种视觉持续学习场景中显著减少了遗忘,同时保持了模型可塑性,性能领先。
自回归视频扩散模型因历史帧键值缓存冗余,面临注意力复杂度高、内存开销大的问题。本文提出Forcing-KV混合压缩方法,基于注意力头功能分化的实证研究,将头划分为静态头(关注块间过渡与帧内保真度)和动态头(控制帧间运动一致性),并分别采用结构化静态剪枝和基于分段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,缓存内存降低30%,在480P分辨率下对LongLive和Self Forcing分别加速1.35倍和1.50倍,在1080P分辨率下更可达2.82倍加速。
研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。
研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。
研究提出一种基于全局保留的KV缓存淘汰方法,以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数,并利用共享的最终评分投影在所有层和注意力头间校准分数,使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明,优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中,该方法在显著减少KV内存的同时,性能达到甚至超越了全缓存推理水平,表明学习型全局KV淘汰可成为一种提升推理能力的机制。
针对多模态大语言模型对齐中奖励模型不可靠的问题,本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程:模型先作为“分歧规划器”生成针对具体实例的中立验证检查表,再转为“检查表验证器”依据图像和问题执行检查,输出基于事实的判断。该方法被构建为多角色强化学习问题,以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明,DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分,大幅优于无检查表基线,证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。
针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。
SK海力士回应“员工人均奖金610万元”传闻,称今明年度业绩未定,奖金规模无法预测。中国汽车工业协会辟谣“8家新能源车企因锁电被约谈”为不实信息。DeepSeek大范围开放“识图模式”,具备文物识别、逻辑题解答、截图转代码等多模态能力。此外,iPhone 18 Pro系列被曝灵动岛将缩小25%;张汝京指出全球超80%半导体需求来自成熟制程;比亚迪腾势N9闪充版等新车公布预售及发布信息。
光帆科技宣布将于5月15日发售“光帆全感AI耳机”,该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”,能通过环境感知主动提供提醒与服务,用户还可为AI选择不同人设,使其成为具有陪伴感的随身助理。硬件方面,单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络,支持脱离手机独立使用。续航上,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航最高为90小时。
亚马逊旗下Blink推出两款2K+智能门铃:Blink Wired Doorbell 2K+(有线供电)和Blink Battery Doorbell 2K+(电池供电)。两款均具备更广动态范围与更清晰细节,电池款还比上代拥有更大视野。起步价均为49.99美元(约合340.7元人民币)。美国用户可通过付费订阅解锁云端智能视频描述功能,以文本摘要快速了解门前动态。
索尼互动娱乐获批一项PlayStation相关AI专利,旨在自动生成玩家游戏中的个性化高光时刻集锦。该系统利用AI和机器学习,实时分析游戏事件(如击杀、击败Boss、逆转取胜等),并参考玩家技术水平与习惯进行筛选。它能自动将精彩瞬间制作成风格化卡片、短视频或3D收藏等内容,省去了手动录制、剪辑和后期制作的繁琐流程,方便玩家在社交平台分享专属高光时刻。
阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。
DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力,不仅能识别文物、解答空间推理题、理解网络梗图,还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架,通过融入点、边界框等视觉元素提升逻辑准确性,且处理效率高,单图token消耗远低于主流模型。目前该模式仍处内测,存在知识库更新滞后、处理反直觉图形不稳定等不足,且暂不支持图像生成或视频理解。
RewardHarness 将奖励建模重构为上下文进化问题,而非传统的权重优化。该框架仅需约100条人类偏好示例,通过协调器与冻结子智能体的协作,利用自进化的工具与技能库进行推理判断。其核心在于通过对比预测结果与真实偏好,自动优化工具库,无需额外人工标注。实验表明,仅使用 EditReward 数据集中 0.05% 的数据,该框架在图像编辑评估基准上平均准确率达 47.4%,超越 GPT-5 达 5.3 个百分点。作为 GRPO 微调的奖励信号时,其能使模型在 ImgEdit-Bench 上取得 3.52 的评分。
针对高分辨率图像输入导致视觉编码成为多模态大语言模型主要计算瓶颈的问题,本研究提出了两项关键改进。在编码策略上,基于切片的编码优于全局编码,能通过局部视图更好地保留细节。在压缩方法上,引入了视觉Transformer内部的早期压缩,在浅层减少令牌数量以大幅降低计算量。结合这两项技术构建的LLaVA-UHD v4方案,在涵盖文档理解、OCR和通用视觉问答的多样化基准测试中,视觉编码计算量降低了55.8%,同时达到甚至超越了基线模型性能,为高效高分辨率多模态大语言模型提供了实用的设计方向。
研究团队发布了MuSS,一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影,明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程,先确保局部镜头级准确性,再强化全局叙事连贯性,以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制,从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标,用于严格评估连续叙事能力和3D结构一致性。实验表明,当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器,而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。
CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。
Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。
GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。
近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。
阿里千问AI眼镜S1迎来重要升级,核心是引入主动服务能力。眼镜能结合时间、地点和环境,主动提供如“出门带伞”、“抬头活动”等提醒。本月将上线打车、闪购、规划行程、购票等生活AI服务,减少对手机的依赖。同时,产品新增“空间3D显示”能力,通过双光机与双目立体成像技术,使信息通知、导航等内容呈现具有纵深感的立体视觉效果,显示更自然真实。
针对多模态领域泛化评估标准不统一的问题,研究团队推出了首个统一基准MMDG-Bench。该基准涵盖动作识别、故障诊断和情感分析三大任务的六个数据集,系统评估了六种模态组合和九种方法在多种场景下的性能。基于大规模实验得出关键结论:现有专用方法相比基线提升有限;无单一方法能持续领先;当前性能与理论上限差距显著;三模态融合未稳定优于双模态;所有方法在数据损坏和模态缺失时性能均大幅下降,部分还损害了模型可信度。
据科技媒体挖掘三星One UI 9早期固件代码,发现其正在开发一款名为Driving Insights的AI驾驶助手应用。该应用利用手机传感器和AI算法,精准追踪用户的加速、转弯、刹车等驾驶行为数据,旨在帮助用户了解并改善驾驶习惯。应用支持连接车载蓝牙后自动记录行程,并可生成个性化驾驶周报,通过三星Now Brief推送。周报会基于数据分析提供反馈,如评价驾驶风格保守或动态,并在长途驾驶后提醒用户注意休息,防止疲劳驾驶。
针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。
针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。
商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。
针对野外环境中多动物三维重建面临的物种多样、遮挡频繁等挑战,研究团队提出了SAM 3D Animal,这是首个支持从单张图像进行多动物可提示三维重建的框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持通过关键点和掩码进行灵活提示,以有效解决复杂场景中的歧义与遮挡问题。为训练此模型,研究引入了包含超过5000张图像的Herd3D多动物三维数据集,显著提升了物种、互动与遮挡模式的多样性。在多个基准数据集上的实验表明,该框架在基于模型和免模型的方法中均达到了最先进的性能,为野外动物三维重建提供了可扩展的有效解决方案。
本研究提出冻结编码器模型组合的新方法,基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件,包含两个模型,能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型,添加图像和音频编码器,但保持骨干文本模型和非文本编码器冻结,仅训练占总权重0.35%的连接组件,训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示,其性能与当前领先的大型多模态嵌入模型竞争,实现了高效且有效的多模态嵌入。
研究提出Auto-Rubric as Reward框架,将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则,将整体意图分解为可独立验证的质量维度,有效抑制位置偏差等评估偏见。为实现生成训练,进一步提出Rubric Policy Optimization方法,将多维评估提炼为稳健的二元奖励,用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明,该框架优于主流奖励模型,证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。
针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。
开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。
针对视觉-语言模型(VLM)易受对抗攻击的安全问题,本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器(SAE)作为即插即用模块插入预训练VLM,通过标准重建目标训练,使稀疏潜在特征自然捕获攻击信号,从而可靠识别图像是否遭受对抗扰动。实验表明,SAEgis在域内、跨域及跨攻击场景中均表现强劲,其跨域泛化能力显著优于现有基线。该方法无需对抗训练,开销极小,为实际VLM系统提供了一种实用的安全增强方案。
TextLDM将视觉领域的潜在扩散模型成功迁移至文本生成。该方法采用基于Transformer的VAE将离散词元映射为连续潜在表示,并通过表征对齐技术使其与冻结的预训练语言模型特征对齐,以提升条件去噪效果。随后,标准扩散Transformer在此潜在空间内执行流匹配。核心突破在于获得了高质量的连续文本表示:仅重建保真度不足,而与预训练模型对齐对生成质量至关重要。在OpenWebText2上训练后,TextLDM显著超越了之前的扩散语言模型,并达到了GPT-2的性能水平,证明视觉DiT方案能有效迁移至语言领域。
多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练,但跨模态表示互换性受模态鸿沟阻碍。研究发现,模态鸿沟并非全局偏移,而是集中于少数主导方向的各向异性残差结构。基于此,提出各向异性模态对齐原则,设计几何校正框架AnisoAlign,利用目标模态内部几何先验对源模态表示进行有界校正,构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性,将模态鸿沟转化为可校正的结构化几何现象,为单模态数据训练多模态模型提供新对齐视角。
针对现有多模态搜索代理顺序处理实体导致效率低下的问题,本文提出HyperEyes。它将视觉定位与检索融合为单一原子操作,支持对多实体进行并行搜索,并将推理效率作为核心训练目标。其训练采用双阶段策略:首先通过并行适配数据合成流程进行冷启动监督;随后运用双粒度效率感知强化学习框架,在宏观层面通过动态收紧参考的轨迹级奖励抑制冗余工具调用,在微观层面利用策略蒸馏注入密集的令牌级纠正信号。研究还构建了人工标注基准IMEB以同时评估搜索能力与效率。实验表明,HyperEyes-30B在六个基准上以平均减少5.3倍工具调用轮次的代价,在准确率上超越最强开源代理9.9%。
为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此,研究团队推出InterLV-Search基准,专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例,涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级,并首次引入涉及多实体比较的多模态多分支样本。实验表明,当前最先进的多模态智能体在此任务上整体准确率仍低于50%,在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。