全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 193 条

全部一手资讯 X 论文

标签「视频」清除

今天7月3日周五

01:08Apple Machine Learning Research（RSS）56精选VideoFlexTok：可变长度粗到细视频分词

7月1日周三

11:28HuggingFace Daily Papers（社区热门论文）38MemLearner：为视频世界模型学习查询上下文记忆

6月30日周二

12:26HuggingFace Daily Papers（社区热门论文）37NeuWorld：通过神经隐式场景实现交互式世界探索

12:26HuggingFace Daily Papers（社区热门论文）46DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

6月29日周一

08:00HuggingFace Daily Papers（社区热门论文）44AVTok：面向整体音频-视频生成的一维统一分词器

6月28日周日

08:00HuggingFace Daily Papers（社区热门论文）55基于通用关键帧提取连接视频问答与视频引导智能体任务

6月26日周五

08:00HuggingFace Daily Papers（社区热门论文）53Video-MME-Logical：视频时间逻辑推理的受控诊断基准

08:00HuggingFace Daily Papers（社区热门论文）47PhysisForcing：面向机器人操作的物理增强世界模拟器

6月25日周四

16:12HuggingFace Daily Papers（社区热门论文）43MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

12:12HuggingFace Daily Papers（社区热门论文）41TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

11:12HuggingFace Daily Papers（社区热门论文）70精选Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

11:12HuggingFace Daily Papers（社区热门论文）52DomainShuttle：面向开放域主题驱动的文本到视频生成

08:00HuggingFace Daily Papers（社区热门论文）47SAM2Matting：通用图像和视频抠图

08:00HuggingFace Daily Papers（社区热门论文）51LiveEdit：面向实时扩散的流式视频编辑

08:00HuggingFace Daily Papers（社区热门论文）48LISA：基于似然分数对齐的视觉条件可控生成正则化方法

6月24日周三

08:00HuggingFace Daily Papers（社区热门论文）48Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

07:07Hacker News 热门（buzzing.cc 中文翻译）48Lift4D：协调单视图3D估计与4D重建的真实场景框架

00:03HuggingFace Daily Papers（社区热门论文）44Vera：用于内容保留视频编辑的分层扩散模型

6月19日周五

10:47HuggingFace Daily Papers（社区热门论文）56当前世界模型缺乏持久状态核心

6月18日周四

10:43HuggingFace Daily Papers（社区热门论文）51Physics-IQ Verified

08:00HuggingFace Daily Papers（社区热门论文）54Go-with-the-Track：视频合成与运动控制与点追踪

08:00HuggingFace Daily Papers（社区热门论文）37World Action Models 综述

6月17日周三

08:00HuggingFace Daily Papers（社区热门论文）48TurboServe：高效经济地服务流式视频生成

08:00HuggingFace Daily Papers（社区热门论文）48LooseControlVideo：利用空间阻挡实现导演级视频控制

6月16日周二

11:27HuggingFace Daily Papers（社区热门论文）48DreamX-World 1.0：通用交互式世界模型

11:27HuggingFace Daily Papers（社区热门论文）55VisualClaw：面向物理世界的实时个性化多模态智能体

6月14日周日

22:14The Decoder：AI News（RSS）45微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

08:00HuggingFace Daily Papers（社区热门论文）51SpatialAvatar-0：多阶段重建的高质量4D头部头像

08:00HuggingFace Daily Papers（社区热门论文）49Track2View：通过配对3D点轨迹实现4D一致的相机可控视频生成

6月12日周五

17:00HuggingFace Daily Papers（社区热门论文）73精选HYDRA-X：原生统一多模态模型与整体视觉分词器

11:00HuggingFace Daily Papers（社区热门论文）65MoVerse：基于全景高斯支架的实时视频世界模型

11:00HuggingFace Daily Papers（社区热门论文）55VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

08:00HuggingFace Daily Papers（社区热门论文）64MVEB：大规模视频嵌入基准

08:00HuggingFace Daily Papers（社区热门论文）43Memento：通过主体重建实现长视频一致性生成

08:00HuggingFace Daily Papers（社区热门论文）43OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

6月11日周四

10:58HuggingFace Daily Papers（社区热门论文）59InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

08:00HuggingFace Daily Papers（社区热门论文）42OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

08:00HuggingFace Daily Papers（社区热门论文）50Avatar V：扩展视频参考的虚拟人视频生成

06:25AK53SCAIL-2：统一可控角色动画与上下文条件化

6月10日周三

21:56HuggingFace Daily Papers（社区热门论文）68Next Forcing：基于多块预测的因果世界建模

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

01:08

Apple Machine Learning Research（RSS）

精选56

VideoFlexTok：可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构——首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

数据/训练视频论文/研究

推荐理由：把视频 tokenization 从固定网格改成变长 coarse-to-fine，训练效率提升明显，还能做更长的视频。研究角度挺漂亮，但离产品落地还有距离，做视频生成的可以追一下。

7月1日

11:28

HuggingFace Daily Papers（社区热门论文）

38

MemLearner：为视频世界模型学习查询上下文记忆

视频世界模型在长时段生成中缺乏记忆，导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法，利用 query tokens 桥接上下文与预测 token，并借助视频生成模型自身的预训练视觉先验进行上下文查询，无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集，辅以相机位姿标注，并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明，MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型，尤其在遮挡和动态场景下。

arXiv 视频论文/研究

6月30日

12:26

HuggingFace Daily Papers（社区热门论文）

37

NeuWorld：通过神经隐式场景实现交互式世界探索

NeuWorld提出场景中心范式Walking in the Implicit，将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS，并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器，将相机、参考图像和历史线索映射到同一NIS模态，避免外部异构编码器。模型在公开姿态视图数据上从头训练，未使用预训练视频骨干或3D重建器，实现了强长程一致性和有利推理效率。

arXiv 视频论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

46

DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

DreamForge-World 0.1 Preview 是一款低算力实时交互世界模型预览版，基于 LongLive 1 自回归视频栈（源自 Wan2.1-T2V-1.3B）和 Matrix-Game 系列的残差动作路径。支持实时键盘鼠标控制、多模态初始化、中流重提示及双视角操作。在单张 RTX 4090 上以原生 480p 分辨率达到 14-15 FPS，内存占用低，展示了在消费级 GPU 上实现实时可控世界模型预览的低算力路线。

开源生态视频论文/研究

6月29日

08:00

HuggingFace Daily Papers（社区热门论文）

44

AVTok：面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器，专为整体音频-视频生成设计。它采用双流 Transformer 架构，包含共享编码器-解码器和模态特定的可学习查询，将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡，研究者设计了分层训练策略，逐步重建各模态。实验表明，AVTok 在音频-视频重建及下游任务（音频到视频、视频到音频、类别条件联合生成）中均表现优异，为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究

6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

53

Video-MME-Logical：视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作（状态跟踪、顺序计数、时序排序、动态空间性、结构组合）构建，包含25个细粒度任务类别，通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型（MLLM）的视频时间逻辑推理能力。实验表明，当前SOTA MLLM与人类之间存在显著差距，且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调，仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

PhysisForcing：面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征，重点监督物理信息区域来强化物理一致性，包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上，PhysisForcing 一致提升基线模型：Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%（优于普通微调的 7.1% 和 3.7%），Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型，闭环成功率从 16.0% 提升至 24.0%，并改善下游策略。

具身智能视频论文/研究

6月25日

16:12

HuggingFace Daily Papers（社区热门论文）

43

MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架，将多视角点跟踪作为额外几何与运动监督信号，用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系，对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标，MVTrack4Gen增强运动感知对应，使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上，该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究

12:12

HuggingFace Daily Papers（社区热门论文）

41

TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿（CaM-VVT）的统一DiT框架。它引入可渲染4D试穿代理，将高保真2D试穿先验蒸馏为基于3DGS的服装化身，再由SMPL-X序列驱动动画并度量对齐至重建背景点云，实现人体与环境的显式解耦。基于该代理作为几何锚点，Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

11:12

HuggingFace Daily Papers（社区热门论文）

52

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

SAM2Matting：通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架，通过为基础追踪器（如 SAM2、SAM3）添加区域提议桥和专用抠图头，将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练，SAM2Matting 在视频抠图上实现了新 SOTA，支持多种提示类型，保持强时间一致性，并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

LISA：基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式（预训练主网络+侧网络）重新解释为基于分数的生成建模：主网络提供无条件先验分数，侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间，与构造的近似似然分数目标计算距离作为正则化损失，并与标准扩散损失联合优化。实验表明，LISA能一致加速训练收敛并提升合成质量，使侧网络特征更解耦，且几乎不增加训练成本、零额外推理成本。

arXiv 图像生成视频论文/研究

6月24日

08:00

HuggingFace Daily Papers（社区热门论文）

48

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

07:07

Hacker News 热门（buzzing.cc 中文翻译）

48

Lift4D：协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架，从单目视频重建动态物体的完整几何、外观和变形，包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型（图像到3D DiT）生成时间一致的逐帧预测，作为可变形3D高斯泼溅表示的初始化；随后结合遮挡感知优化与视图条件扩散先验，恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中，Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究

00:03

HuggingFace Daily Papers（社区热门论文）

44

Vera：用于内容保留视频编辑的分层扩散模型

Vera 是一种分层扩散模型，专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩，与源视频合成，从而分离创意编辑与内容保留。架构采用混合 Transformer（MoT），各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集，含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示，Vera 在内容保留上优于开源模型，编辑质量有竞争力，仅使用 486K 帧分层训练数据。

视频论文/研究

6月19日

10:47

HuggingFace Daily Papers（社区热门论文）

56

当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性，忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预，通过链式评估：摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型（9600个视频，覆盖四种控制范式）的测试表明，当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态，而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模，表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究

6月18日

10:43

HuggingFace Daily Papers（社区热门论文）

51

Physics-IQ Verified

本文对Physics-IQ基准进行系统审查，指出其缺陷并提出三项改进：优化提示词与真实数据质量以减少混淆因素，引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中，排名出现中等但有意义的变化（Kendall's τ=0.46）。基准代码已开源。

DeepMind 视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

Go-with-the-Track：视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中，通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入，利用坐标MLP和时序池化编码完整点轨迹序列，再通过轻量适配器注入模型，避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明，该模型能支持多参考条件视频生成、点追踪驱动合成，并对静态与动态场景提供相机控制。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

World Action Models 综述

World Action Models（WAM）是具身预测动作模型，通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界，从生成内容（渲染未来、潜在未来、无视频生成的动作推理）和设计维度（预测基质、骨干、动作耦合、部署机制）两个视角组织现有方法。分析表明：WAM并非仅带动作头的视频生成器，其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。

具身智能视频论文/研究

6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

48

TurboServe：高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频，面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统，将服务形式化为在线调度问题，联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器（跨GPU重平衡会话以降低每块最大延迟）和负载驱动自动缩放控制器（根据工作负载调整GPU预算）。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上，最多64块NVIDIA B300 GPU的评估显示，相比基线，最坏情况每块延迟降低37.5%，总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

48

LooseControlVideo：利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理，使用户能创作高层级布局和轨迹，同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络，并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中，轨迹误差提升1.2倍到3倍，刚性运动一致性提升2倍，遮挡准确率提升1.5倍到2倍，显著优于现有2D盒子和流基线方法。

多模态视频论文/研究

6月16日

11:27

HuggingFace Daily Papers（社区热门论文）

48

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

55

VisualClaw：面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体，通过级联门过滤流式帧与热/冷top-k注入技能库，将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库，在4个视频QA基准上平均准确率提升+3.85%，EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena（200场景多模态智能体基准），在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%，成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次，适合边缘部署。

智能体多模态视频论文/研究

6月14日

22:14

The Decoder：AI News（RSS）

45

微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中，而非基于像素的点云。这大幅降低了计算时间和图形显存消耗，同时能在长镜头移动中保持场景空间一致性。不过，该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

SpatialAvatar-0：多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示，结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度；精化阶段冻结 FLAME 绑定与高斯数量，以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中，PSNR 超越领域内领先模型 GAGAvatar 1.5 dB；在 SplattingAvatar 单目基准上，所有指标均领先，PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB，且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

Track2View：通过配对3D点轨迹实现4D一致的相机可控视频生成

Track2View将视频扩散Transformer与配对的3D点轨迹条件结合，通过源视图和目标视图中场景点的稀疏轨迹提供显式、时序连续的时空对应。其双视角轨迹调节器利用无参数几何操作和时序聚合转移视觉上下文，能泛化到任意相机轨迹。在含400个视频（静态和动态场景）的基准测试中，Track2View在视觉质量、视图同步和相机精度上均达最优，旋转误差比领先基线降低30-65%，平移误差降低61-72%。

视频论文/研究

6月12日

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

11:00

HuggingFace Daily Papers（社区热门论文）

65

MoVerse：基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离：先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图，再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold，最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生，实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

55

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

MVEB：大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准，涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导：基于MLLM的嵌入在分类、聚类、对分类和问答上领先；多模态绑定方法在检索和零样本分类上领先；缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明，音频的贡献取决于数据标注来源：标签来自双模态时音频有帮助，仅来自视觉时则有害，差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池，在降低评估成本的同时保持任务多样性，并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub 多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

6月11日

10:58

HuggingFace Daily Papers（社区热门论文）

59

InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理（MCR）提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程，将长视频理解为证据积累与验证。为提升效率，引入多模态多头潜在注意力（M²LA），一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能，并实例化为带有检索工具的视频智能体，展现基于证据的鲁棒行为。

智能体多模态推理视频

08:00

HuggingFace Daily Papers（社区热门论文）

42

OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据，难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示，支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练，采用多模态扩散Transformer，协调角色、动作和相机。同时设计层级提示扩展智能体，通过理解信号关系系统描述相机运动和视觉内容，集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Avatar V：扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架，通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算，同时重现静态身份和动态行为（如说话节奏、微表情）。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段，经 flow matching 预训练、个性微调、两阶段蒸馏（>10 倍加速）和 RLHF 对齐等五阶段训练，部署于数千 GPU。可生成无限时长 1080p 视频，在跨场景基准上保持最优的身份保留、唇同步和生成质量，全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究

06:25

AK@_akhaliq

53

SCAIL-2 统一可控角色动画与端到端上下文条件化

视频论文/研究

6月10日

21:56

HuggingFace Daily Papers（社区热门论文）

68

Next Forcing：基于多块预测的因果世界建模

Next Forcing 提出多块预测（MCP）框架，受大语言模型多 token 预测启发，在主模型上添加轻量级辅助 MCP 模块，同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%，收敛速度加快 2.3 倍；在 RoboTwin 基准上达 94.1%（Clean）/93.5%（Random）新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升，通用视频预训练 FVD 降低超 50%。

arXiv 具身智能数据/训练视频

‹ 上一页

12 3 4 5