全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 609 条

全部一手资讯 X 论文

标签「多模态」清除

今天7月3日周五

01:08Apple Machine Learning Research（RSS）62精选RL微调VLM的鲁棒性与思维链一致性研究

7月2日周四

22:33Berryxia.AI48GenRecon：结合生成式先验的多视角3D重建方法

15:28HuggingFace Daily Papers（社区热门论文）54多模态连续推理：非对称互变分学习

11:28HuggingFace Daily Papers（社区热门论文）51Perceive-to-Reason （P2R）：解耦感知与推理的细粒度视觉推理框架

10:28HuggingFace Daily Papers（社区热门论文）46DiscoPER：基于迭代元反思的自主科学发现框架

09:28HuggingFace Daily Papers（社区热门论文）50VideoSearch-R1：通过软查询优化实现迭代视频检索与推理

7月1日周三

17:28HuggingFace Daily Papers（社区热门论文）43MuSViT：乐谱表示的基础视觉模型

17:28HuggingFace Daily Papers（社区热门论文）48DataEvolver：面向文本丰富图像生成的自进化多智能体数据构建框架

6月30日周二

20:26HuggingFace Daily Papers（社区热门论文）43ILLUME-X：面向自由形式交错图文生成的统一多模态模型

15:26HuggingFace Daily Papers（社区热门论文）56视频扩散模型在手部运动重建中的惊人有效性

12:26HuggingFace Daily Papers（社区热门论文）50InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

11:26HuggingFace Daily Papers（社区热门论文）54TACO：面向智能体工具使用的工具增强信用优化

11:26HuggingFace Daily Papers（社区热门论文）52Orca：一个通用世界基础模型

08:06小互75Meta发布无创脑机接口Brain2Qwerty v2，字词准确率达61%

08:00HuggingFace Daily Papers（社区热门论文）45PixelEyes：解耦感知与推理实现精准视觉证据定位

02:28宝玉79同事件精选Meta 发布 Brain2Qwerty v1 论文与 v2，非侵入式脑机接口解码准确率大幅提升同一事件，精选展示《Meta发布Brain2Qwerty v2：非侵入式实时句子解码》

6月29日周一

23:04elvis77Meta Brain2Qwerty v2：非侵入式实时脑解码新突破

20:27AI at Meta79精选Meta发布Brain2Qwerty v2：非侵入式实时句子解码

08:00HuggingFace Daily Papers（社区热门论文）50MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

08:00HuggingFace Daily Papers（社区热门论文）51BrainJanus：融合脑、视觉与语言的统一模型

08:00HuggingFace Daily Papers（社区热门论文）44AVTok：面向整体音频-视频生成的一维统一分词器

6月28日周日

08:00HuggingFace Daily Papers（社区热门论文）39用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

08:00HuggingFace Daily Papers（社区热门论文）52一场景，两深度：探针单目深度基础模型中的几何歧义

08:00HuggingFace Daily Papers（社区热门论文）55基于通用关键帧提取连接视频问答与视频引导智能体任务

6月27日周六

12:48Ethan Mollick81同事件精选赫库兰尼姆卷轴两千年来首次被读同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

6月26日周五

23:56AK40ViQ：任意分辨率文本对齐视觉量化

20:26AK44自信感知工具编排实现鲁棒视频理解

08:00HuggingFace Daily Papers（社区热门论文）47PerceptionRubrics：校准多模态评估以对齐人类感知

08:00HuggingFace Daily Papers（社区热门论文）53Video-MME-Logical：视频时间逻辑推理的受控诊断基准

08:00HuggingFace Daily Papers（社区热门论文）47ProMSA：渐进式多模态搜索智能体用于知识型视觉问答

6月25日周四

16:12HuggingFace Daily Papers（社区热门论文）43MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

15:12HuggingFace Daily Papers（社区热门论文）34ShutterMuse：利用MLLM进行拍摄时摄影指导

13:12HuggingFace Daily Papers（社区热门论文）44V-Zero：无需答案标签的对比证据门控用于细粒度视觉推理

11:12HuggingFace Daily Papers（社区热门论文）52DomainShuttle：面向开放域主题驱动的文本到视频生成

08:00HuggingFace Daily Papers（社区热门论文）56RedVox：语音模型在跨语言场景中的安全性与公平性差距

08:00HuggingFace Daily Papers（社区热门论文）51LiveEdit：面向实时扩散的流式视频编辑

08:00HuggingFace Daily Papers（社区热门论文）48Qwen-Image-2.0-RL 技术报告

08:00HuggingFace Daily Papers（社区热门论文）37DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

08:00HuggingFace Daily Papers（社区热门论文）54ViQ：任意分辨率的文本对齐视觉量化表示

08:00HuggingFace Daily Papers（社区热门论文）51面向鲁棒视频理解的置信感知工具编排

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月2日

22:33

Berryxia.AI@berryxia

48

GenRecon：结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合，把场景切分成重叠chunk，用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning，将多视角图像特征提升到3D空间。输出可编辑PBR mesh，室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究

15:28

HuggingFace Daily Papers（社区热门论文）

54

多模态连续推理：非对称互变分学习

多模态大语言模型受语言空间瓶颈限制，连续潜在推理虽能绕过离散token的感知损失，但存在训练-推理不匹配：训练时后验利用答案捷径，迫使推理时先验模仿包含不可用信息的后验，导致性能下降。提出非对称互变分学习（AMVL）框架，通过双向KL校准解决——前向KL训练先验匹配后验，反向KL正则化后验防止崩溃至推理不兼容区域，缓解“答案泄露”。理论分析将后验污染形式化为先验污染，证明双KL目标可降低污染。在latent-integrated MLLM上，AMVL在复杂BLINK基准平均提升+10.83，单项推理任务最高提升+32.00，潜在空间稳定性得到改善。

多模态推理论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

51

Perceive-to-Reason （P2R）：解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架：模型先作为感知器定位与问题相关的视觉证据，再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练，引入感知-推理交替 GRPO（PRA-GRPO），一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B，P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%，在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%，显著超越对应基线。进一步实验表明，P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

46

DiscoPER：基于迭代元反思的自主科学发现框架

DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标，动态生成代码探索数据集，且每个发现必须通过统计检验。框架引入二阶元反思机制，周期性分析自身已有发现，识别结构模式、混淆和认知空白，主动将假设探索重定向到未知区域。结合工具使用，可处理多模态来源（如图像）的信息。在 iNatDisco 生态基准上，DiscoPER 恢复 8/9 已知模式，假设支持率 72.7%，优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。

多模态数据/训练论文/研究

09:28

HuggingFace Daily Papers（社区热门论文）

50

VideoSearch-R1：通过软查询优化实现迭代视频检索与推理

现有视频检索方法常将检索视为预处理步骤，失败后无法优化查询，且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架，通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化（SQR），在连续潜在空间中优化搜索查询token，而非在离散文本空间重写。SQR及推理过程使用组相对策略优化（GRPO）训练，由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索（VCMR）数据集上达到最先进性能，且生成的token远少于显式文本级查询优化。

多模态搜索论文/研究

7月1日

17:28

HuggingFace Daily Papers（社区热门论文）

43

MuSViT：乐谱表示的基础视觉模型

MuSViT是首个专为乐谱表示设计的基础视觉模型，采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练，使用两阶段课程（先合成排版乐谱，再训练完整IMSLP语料库）。在四个下游任务（全页与谱行级乐谱识别、音乐符号检测、难度分类）上，线性探测（冻结编码器）中MuSViT持续优于通用视觉编码器，微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明，MuSViT直接在表示空间中编码符号化的音乐结构，而其他编码器的嵌入与乐谱内容不相关。

多模态论文/研究

17:28

HuggingFace Daily Papers（社区热门论文）

48

DataEvolver：面向文本丰富图像生成的自进化多智能体数据构建框架

DataEvolver提出自进化多智能体框架，将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器，利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试，DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%，在LongTextBench上提升35.3%，且收益可迁移至Show-o2。

图像生成多模态论文/研究

6月30日

20:26

HuggingFace Daily Papers（社区热门论文）

43

ILLUME-X：面向自由形式交错图文生成的统一多模态模型

ILLUME-X是一个统一多模态模型，能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现：面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略（适用于自由长度的多模态token序列），以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。

图像生成多模态论文/研究

15:26

HuggingFace Daily Papers（社区热门论文）

56

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

50

InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题，InnerZoom提出单前向跨层证据桥接框架，将原始前向中的目标线索压缩为跨层证据状态，在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优，OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6，分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点，对比两遍ZoomIn平均提升1.3点，端到端延迟降低31.8%，TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

54

TACO：面向智能体工具使用的工具增强信用优化

TACO是一种基于GRPO的变体，专为代码工具agent设计。它通过两个耦合优势通道解决工具调用信用分配：Differential Answer-Probe Reward（DAPR）在推理中插入探针token，自监督比较有无工具时的预测差异，为每次调用赋予正/负/零价值，无需外部评判器；Outcome-Gated Advantage Routing（OGAR）根据调用结果将最终答案优势仅分配给导致正确输出的段，抑制无用调用。经两阶段SFT+RL训练后，TACO在感知、推理和通用多模态基准上取得一致准确率提升，且学会仅在必要时调用工具。

多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

52

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

08:06

小互@xiaohu

75

Meta发布无创脑机接口Brain2Qwerty v2，字词准确率达61%

Meta 发布 Brain2Qwerty v2，无需手术植入，仅佩戴 MEG（脑磁图）头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%，约为其他无创脑机接口方法（8%）的 7.6 倍；最佳参与者达 78%，超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。

Meta 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

02:28

宝玉@dotey

同事件精选79

Meta 发布 Brain2Qwerty v1 论文与 v2，非侵入式脑机接口解码准确率大幅提升

Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文，同日发布 v2。v1 从脑电信号逐字母解码，字符错误率 32%。v2 实现句子级实时解码，平均单词准确率 61%，最优 78%，过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据（约 2.2 万句子），结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高，但该成果为脑损伤患者提供了无需开颅的可行路径。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta 多模态开源/仓库论文/研究

同一事件，精选展示《Meta发布Brain2Qwerty v2：非侵入式实时句子解码》

推荐理由：非侵入式脑机接口从近乎不能用进步到能大致沟通，这一步证明了不开颅也可能接近侵入式的效果，剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。

6月29日

23:04

elvis@omarsar0

77

Meta AI 发布 Brain2Qwerty v2，非侵入性脑信号编码器最新里程碑，论文同日发表于《Nature》。该模型能从原始脑信号实时解码完整句子，准确度逼近需开颅手术的侵入式技术；从 v1 的字符级解码升级为词语及语义级解码，显著提升通信精度，有望帮助因脑损伤或障碍无法交流的数百万患者。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta 多模态论文/研究

20:27

AI at Meta@AIatMeta

精选79

Meta发布Brain2Qwerty v2：非侵入式实时句子解码

Meta公布Brain2Qwerty v2，这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1，v2是性能最高的端到端管道，能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义，提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。

多模态论文/研究

推荐理由：Meta把非侵入脑解码从字符级推到语义级，Nature论文背书，我认真觉得这比任何benchmark刷分都有意义，给失语人群的希望比聊天机器人更值得关注。

08:00

HuggingFace Daily Papers（社区热门论文）

50

MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道，将复合图表分解为独立子面板，并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章，从 180,571 张图中生成 MatSciFig 数据集，包含 391,606 个面板级图像-文本对，每对配有子标题、两级可视化类别（19 个大类、100+ 子类）和科学摘要。引入 MaterialScope 检测数据集（2,811 张人工标注图），微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中，Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡，82% 输出良好，模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍，所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

BrainJanus：融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型，在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token，与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构，利用下一token预测实现任意方向生成，包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越，具备零样本泛化能力，并保持可解释的脑拓扑结构。代码已公开。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

AVTok：面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器，专为整体音频-视频生成设计。它采用双流 Transformer 架构，包含共享编码器-解码器和模态特定的可学习查询，将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡，研究者设计了分层训练策略，逐步重建各模态。实验表明，AVTok 在音频-视频重建及下游任务（音频到视频、视频到音频、类别条件联合生成）中均表现优异，为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究

6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

39

用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

RAHA（Rank-Aware Hyperbolic Alignment）提出将多模态表示提升到双曲空间，通过非对称目标优化蒸馏对，强制在共享低秩范围内进行测地线对齐，同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题，在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

一场景，两深度：探针单目深度基础模型中的几何歧义

单目深度估计通常将每个像素简化为一个标量深度，忽略同一射线中可能存在的多个几何有效表面。本文引入MultiDepth-3k（MD-3k），一个稀疏双层序数基准，用于测量深度层偏好和多层空间关系准确性（ML-SRA）。在MD-3k上，领先的深度基础模型在标准RGB输入下表现出多样化的层偏好。Laplacian Visual Prompting（LVP）作为一种无需训练的谱输入变换，能显著改变某些冻结模型的层报告。最强的RGB/LVP组合DAv2-L达到75.5% ML-SRA。结果提示深度基础模型可能表达了互补的几何假设，需要以歧义感知的视角重新审视深度监督和评估。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

6月27日

12:48

Ethan Mollick@emollick

同事件精选81

其中一段被复原的文字，两千年来首次被读到："经过研究和学习的极限努力……拥有同样的实践智慧……"

Stewart Brand: Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll

多模态论文/研究

同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

推荐理由：AI 首次从两千年前的火山灰中读出完整段落，而且内容恰恰是关于「研究与智慧」的，这种巧合本身就值得你点开看一眼。

6月26日

23:56

AK@_akhaliq

40

ViQ 文本对齐的视觉量化表示，支持任意分辨率。

Hugging Face 图像生成多模态论文/研究

20:26

AK@_akhaliq

44

面向鲁棒视频理解的自信感知工具编排

MCP/工具多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

PerceptionRubrics：校准多模态评估以对齐人类感知

PerceptionRubrics 提出基于规则的多模态评估框架，将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则，这些规则源于环形同行评审共识流水线构建的金标准描述，并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制：强制视觉事实失败触发二值惩罚。评估揭示三大发现：①可靠性差距——模型能正确验证碎片化元素，但在严格合取约束下暴露脆弱性；②开源-闭源分层——前沿模型存在 8% 感知差距；③人类对齐严格性——门控指标远超传统基准。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

Video-MME-Logical：视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作（状态跟踪、顺序计数、时序排序、动态空间性、结构组合）构建，包含25个细粒度任务类别，通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型（MLLM）的视频时间逻辑推理能力。实验表明，当前SOTA MLLM与人类之间存在显著差距，且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调，仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

ProMSA：渐进式多模态搜索智能体用于知识型视觉问答

ProMSA是一种渐进式多模态搜索智能体，用于知识型视觉问答（KB-VQA）。给定图像-问题对，智能体在明确的工具调用预算和去重机制下，迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式，再使用TN-GSPO序列级RL目标优化，该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上，ProMSA持续优于强RAG和智能体基线，提升了检索和端到端准确率。代码已开源。

智能体多模态论文/研究

6月25日

16:12

HuggingFace Daily Papers（社区热门论文）

43

MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架，将多视角点跟踪作为额外几何与运动监督信号，用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系，对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标，MVTrack4Gen增强运动感知对应，使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上，该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究

15:12

HuggingFace Daily Papers（社区热门论文）

34

ShutterMuse：利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪，忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench，包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset（13万样本），并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上，ShutterMuse摄影师侧整体性能最佳，主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究

13:12

HuggingFace Daily Papers（社区热门论文）

44

V-Zero：无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型（MLLM）进行细粒度视觉推理时，传统方法依赖强化学习或大规模标注推理轨迹，成本高昂。V-Zero提出无需标注文本答案标签的框架，通过将问题相关区域裁剪与负视觉视图配对，评估学生模型采样轨迹，并门控细粒度token级知识蒸馏，引入轨迹级判别能力。在多个视觉推理基准上，V-Zero持续提升细粒度视觉推理性能并保持强泛化能力，训练速度比监督微调方法快5倍以上，比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

52

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

RedVox：语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准，覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示，即使在非对抗性条件下，漏洞依然存在；在非英语语言中问题更严重，且当请求来自语音输入时风险被放大。通过调查数据贡献者，研究还揭示了语音数据收集中的个人隐私挑战，指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架，将每个样本路由至单一能力场，查询低噪声学生诱导状态，以速度MSE作为训练目标，使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源（包括无分类器指导等operator定义的速率场），在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力，同时保持锚点生成质量不受损。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠，在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段：通过统一接口组织异构视觉工具，每个工具接收子查询和经可靠性-相关性评分筛选的可信帧，返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合（高/中/低）与置信-成本GRPO奖励，联合优化正确性、可靠性和效率。在八个任务上，Robust-TO清洗输入准确率56.4%，超过最强开源基线10.6%p和Gemini-2.5-Pro（46.2%）；五种腐蚀下保持54.3%，高出最强开源基线5.8%p，且准确率下降最小。

智能体具身智能多模态论文/研究

‹ 上一页

12 3…16