研究团队提出 Switch-KD 视觉切换知识蒸馏框架,通过将学生模型的视觉输出接入教师模型的语言路径,在共享文本概率空间中实现跨模态知识迁移。该方法包含动态双向 Logits 差分损失函数,可自适应对齐关键概率区域并保持分布结构。实验表明,0.5B 参数的 TinyLLaVA 在无需修改架构的情况下,从 3B 教师模型蒸馏知识后,在 10 个多模态基准测试中平均性能提升 3.6 个百分点。
研究团队提出 Switch-KD 视觉切换知识蒸馏框架,通过将学生模型的视觉输出接入教师模型的语言路径,在共享文本概率空间中实现跨模态知识迁移。该方法包含动态双向 Logits 差分损失函数,可自适应对齐关键概率区域并保持分布结构。实验表明,0.5B 参数的 TinyLLaVA 在无需修改架构的情况下,从 3B 教师模型蒸馏知识后,在 10 个多模态基准测试中平均性能提升 3.6 个百分点。
LLaDA2.0-Uni是一个统一的多模态模型,具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息,实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务,标志着多模态人工智能向更通用、统一的方向演进。
MM-WebAgent 是一个面向多模态网页生成的分层代理框架,通过分层规划与迭代自我反思协调 AIGC 元素生成,解决直接集成 AIGC 工具导致的风格不一致与全局连贯性问题。该框架联合优化全局布局、局部多模态内容及其集成,并配套推出多模态网页生成基准与多级评估协议。实验表明,MM-WebAgent 在多模态元素生成与集成方面优于代码生成及代理基线方法。
C-GenReg是一种无需训练的3D点云配准框架,利用世界基础模型将输入几何转换为多视图一致的RGB图像,借助视觉基础模型(VFM)在图像域提取密集对应关系,再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略,将生成RGB分支与原始几何分支的对应后验进行融合,无需额外学习即可提供校准置信度。作为零样本即插即用方案,C-GenReg所有模块均无需微调,在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力,并首次在真实室外LiDAR数据上实现生成式配准。
研究团队发布"Mind's Eye"基准测试,涵盖8项视觉认知任务,依据"抽象-关系-转换"(A-R-T)分类体系评估多模态大语言模型的流体推理能力。结果显示,人类参与者准确率达80%,而顶尖模型不足50%。错误分析揭示,现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷,表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。
研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
研究团队推出LaviGen框架,将3D生成模型重新用于3D布局生成。该方法突破传统文本推断模式,直接在原生3D空间通过自回归过程显式建模物体几何关系与物理约束,生成连贯且符合物理规律的3D场景。团队还提出融合场景、物体与指令信息的改进版3D扩散模型,并采用双引导自推出蒸馏机制提升效率与空间精度。在LayoutVLM基准测试中,LaviGen的物理合理性较现有最优方法提升19%,计算速度加快65%。
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
研究团队发布LingBot-Map,一款基于几何上下文Transformer(GCT)的流式3D重建基础模型。其创新注意力机制整合锚点上下文、姿态参考窗口与轨迹记忆,分别实现坐标定位、密集几何线索提取和长程漂移校正。该系统在518×378分辨率输入下保持约20 FPS的推理速度,可稳定处理超10,000帧的长序列,且流式状态紧凑。多项基准测试表明,其性能优于现有流式及迭代优化方法。
研究团队发布MERRIN基准,评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态,要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示,10个模型(包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列)平均准确率仅22.3%,最佳达40.1%。研究发现,强智能体虽表现更优,但因过度探索导致资源消耗高而准确率提升有限,且相比人类存在信源选择低效和过度依赖文本模态的问题。
研究团队提出即插即用框架ROSE,通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块,解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示,ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU,显著增强模型对实时网络信息的利用能力。
UI-Zoomer是一种无需训练的自适应放大框架,通过不确定性量化优化GUI定位任务。该方法利用置信度感知门控机制仅在定位不确定时触发放大,并基于方差分解动态计算每实例的裁剪半径,替代传统的固定尺寸统一裁剪。在ScreenSpot-Pro、UI-Vision和ScreenSpot-v2基准测试中,该方法分别实现最高13.4%、10.3%和4.2%的精度提升,显著改善小图标与密集布局的定位效果。
RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。
研究团队提出WavAlign方法,针对端到端语音对话模型智能与表现力不足的问题,设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道,通过显式锚定改善声学行为,并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示,模型在语义质量和语音表现力方面均获得一致提升。
研究团队提出自适应视觉推理框架 AVR,将推理过程分解为视觉感知、逻辑推理和答案应用三个认知功能,使模型能根据问题难度动态选择完整推理、仅感知或直接答案三种输出格式。该框架采用改进的 FS-GRPO 算法训练,在确保准确性的同时鼓励选择最高效推理路径。实验显示,AVR 在多个视觉语言基准测试中将 token 使用量降低 50–90%,同时保持整体准确率,有效缓解了视觉推理模型的"过度思考"问题。
研究团队提出Humanoid Transformer with Touch Dreaming(HTD)模型,整合基于强化学习的全身控制器与VR遥操作数据收集系统,解决接触丰富场景下的人形机器人操作难题。该方法将触觉作为与视觉、本体感觉同等重要的模态,通过"触觉梦境"机制训练模型预测未来触觉潜变量及手部关节力,从而学习接触感知表征。在插入、整理书籍、叠毛巾、铲猫砂、端茶等五项真实世界灵巧操作任务中,HTD平均成功率较强基线提升90.9%,其中潜空间触觉预测相比原始触觉数据可带来30%的额外性能增益。
研究团队发布涵盖 100 余种 Unicode 文字的 GlotOCR Bench 基准测试,包含干净与退化图像变体。评估显示,多数视觉语言模型仅能正确处理不到 10 种文字,最强前沿模型也难以泛化至 30 种以上。性能与文字级预训练覆盖率高度相关,面对陌生文字时模型会产生随机噪声或幻觉已知相似字符。该基准测试及渲染流程已开源。
研究团队发布SpotSound音频语言模型,针对长音频中的事件精确定位难题,提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试,目标事件占音频片段比例低于10%,模拟"大海捞针"的严苛真实场景。实验表明,该模型在时间定位基准上取得SOTA结果,同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。
本文提出Distortion Graph(DG)任务,将图像对表示为基于区域的结构化拓扑,以图结构编码失真类型、严重程度及质量评分。工作贡献包括区域级数据集PandaSet、多难度基准PandaBench及高效架构Panda。实验表明,当前多模态大语言模型难以处理区域级失真,而基于PandaSet训练或DG提示可有效激发区域级理解能力,为细粒度结构化图像质量评估提供新方向。
针对移动GUI智能体忽视用户隐私个性化需求的问题,研究者提出轨迹诱导偏好优化框架TIPO。该方法通过偏好强度加权突出关键隐私步骤,并采用填充门控抑制对齐噪声,有效解决了隐私优先与效用优先用户间轨迹结构异质性导致的优化不稳定难题。在Privacy Preference Dataset上的测试显示,TIPO在保持任务可执行性的同时,实现65.60%成功率、46.22合规性得分和66.67%隐私区分度,显著优于现有优化方法。相关代码与数据集已开源。
生数科技与阿里云签署战略合作协议,双方将共建“云+AI”全栈生态,推动多模态大模型与世界模型的产业落地。
视觉-语言模型在组合推理中常受词序和属性绑定脆弱性困扰,源于对比预训练中缺乏区分细微语义变化的信息样本。本研究建立词汇具体性作为负样本有效性的决定因素,提出ConcretePlant方法系统操作感知概念,通过修改高具体性术语产生显著结构差异。针对InfoNCE梯度不平衡问题,提出Cement损失函数,采用基于边界的方法关联心理语言学分数与样本难度,动态校准惩罚强度。集成框架Slipform在组合评估基准、跨模态检索及线性探测任务上均达到最先进准确率。
多模态大语言模型在视觉中心任务中常因指令微调时视觉信息利用不足而表现欠佳。研究团队提出一种轻量级方法,将旋转预测、颜色匹配等经典自监督前置任务重构为图像-指令-回复三元组,无需人工标注或架构修改即可增强视觉指令微调。实验表明,仅在训练数据中注入3-10%的此类基于视觉的指令,就能在多个模型和基准测试上持续提升细粒度视觉推理性能。
研究团队提出Grid2Matrix(G2M)基准,通过颜色网格转矩阵任务评估视觉语言模型(VLMs)的细粒度视觉感知。研究发现VLMs在零样本端到端评估中呈现急剧早期崩溃,即使小网格也会完全失败。探测显示视觉编码器保留了充足网格信息,但最终语言输出存在显著损失,这种"可恢复特征"与"语言表达"间的鸿沟被定义为"数字失认症"。错误模式与网格单元和视觉补丁边界重叠密切相关,且模型扩展等策略无法彻底消除该缺陷。
"They See Your Photos"(theyseeyourphotos.com)项目揭示用户上传照片可能面临的隐私泄露风险,通过直观演示展示图像元数据及内容如何被第三方获取与分析。该网站在 Hacker News 平台获得 104 点热度关注,以可视化方式警示公众关于数字影像在未经授权情况下被访问与识别的安全隐患。
研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。
研究团队发布 TIPSv2 图像-文本编码器模型家族,针对密集 Patch 表示与文本嵌入对齐难题提出多项改进。核心创新包括 iBOT++ 训练目标(让未掩码 token 直接参与损失计算)、Patch 级蒸馏技术(学生模型对齐能力竟超越教师模型)、优化指数移动平均机制及多粒度合成 Caption 采样策略。在涵盖 9 项任务和 20 个数据集的综合评测中,TIPSv2 性能与近期主流视觉编码器相当或更优。
研究人员提出人类中心区域适应新范式,设计GG-EZ方法优化多模态视觉语言模型的区域文化适应性。该方法通过区域数据过滤与模型合并,在三类架构(大视觉语言模型、文生图扩散模型、视觉语言嵌入模型)上验证,以东南亚为案例实现文化相关性提升5-15%,同时保持98%以上全球泛化性能甚至偶尔超越原模型。研究确立了人类中心区域对齐作为多模态模型区域应用的基础范式。
研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹(思维流)进行基准测试,基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现,增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓,Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示,当推理预算受限时,模型会在最终输出中添加未经推理的内容,产生"压缩步骤幻觉";Flash倾向于讨论推理过程,而Flash Lite更专注于场景描述。
大型视觉语言模型存在"语义固着"现象:即使提示指定替代规则,仍固守默认语义解释。研究提出VLM-Fix基准(四种抽象策略游戏),评估14个模型发现准确率显著偏向标准规则。实验表明,中性别名提示可缩小逆向规则差距,语义负载别名则扩大差距;单规则训练损害相反规则迁移,联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能,表明该错误可在模型后期表征中编辑。
针对触觉定位任务,本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型,生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制,研究引入野外多材料场景图像及材料多样性配对策略,将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估,实验结果表明该方法显著优于现有视觉-触觉方法。
研究团队提出一种判别式多模态奖励模型,可在单次前向传播中同时评分多个候选回复,突破传统方法需多次推理的局限。该设计通过分隔符连接多回复实现直接比较推理,带来N倍速度提升与FLOPs降低。基于4B视觉语言架构,该模型在六个基准测试中达到SOTA,包括新构建的MR^2Bench-Image(覆盖8个模型)和MR^2Bench-Video(基于94K众包判断的19个模型视频基准)。应用于GRPO强化学习时,其在训练稳定性和开放式生成质量上显著优于单回复奖励模型基线。
研究团队发布LARY基准,统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频(1000小时)涵盖151个动作类别,以及62万图像对和59.5万条运动轨迹。实验表明,未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型,且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识,语义级抽象是比像素级重建更有效的视觉-动作映射路径。
OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。
研究团队发布 TorchUMM,首个支持统一多模态模型(UMMs)综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型,覆盖理解、生成、编辑三大核心任务维度,并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议,TorchUMM 实现了异构模型间的公平可复现比较,助力开发者深入洞察模型优劣,加速统一多模态系统的研发迭代。代码已开源至 GitHub。
研究团队推出面向饮食领域的视觉语言模型基准测试DiningBench,包含3,021道菜品、平均每道菜5.27张图像,涵盖细粒度分类、营养估算和视觉问答三个认知层级。该数据集引入来自相同菜单的"困难"负样本和经严格验证的营养数据。实验评估了29个开源及专有模型,结果显示当前VLMs虽擅长通用推理,但在细粒度视觉辨别和精确营养推理方面存在显著不足。研究还系统分析了多视角输入和思维链推理的影响,识别出五种主要失败模式。代码已开源。
研究团队提出 EditCrafter 方法,实现无需微调的高分辨率图像编辑,突破传统扩散模型仅支持 512×512 或 1024×1024 训练分辨率的限制。该方法通过分块反演技术保留原始图像特征,并引入 ND-CFG++(噪声阻尼流形约束无分类器引导)机制,有效解决分块编辑导致的结构失真与重复问题,可在任意长宽比的高分辨率图像上直接生成高质量编辑结果。
视觉语言模型虽擅长复杂推理,却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件,通过注意力分析与分层探测发现,计数相关的视觉证据在模态投影阶段最强,但在后续语言层显著退化,导致模型过度依赖文本先验。基于此,团队提出轻量级干预方法Modality Attention Share (MAS),强制在答案生成阶段保持最低视觉注意力预算。研究表明,VLMs的计数失败不仅源于视觉感知局限,更因语言推理阶段对视觉证据的利用不足。
研究团队提出零样本视觉世界模型(ZWM),基于稀疏时间分解预测器、近似因果推理和推理组合三大原则,仅从单个儿童的第一人称经验中学习,即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性,不仅重现了儿童发展的行为特征,还构建了类脑内部表征,为开发类人数据效率的AI系统提供了新路径。