5月14日

08:00

HuggingFace Daily Papers（社区热门论文）

EverAnimate是一种高效的后训练方法，用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹，包含两个核心机制：持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘；恢复式流匹配在采样时引入隐式修复目标，通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调，在短时和长时动画设置下均超越现有最优方案，在10秒和90秒动画上均取得了显著的指标提升。

arXiv 图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法，利用基于规则的反馈优化视频扩散模型，使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹，核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中，Early-Step Focus策略通过将优化集中在早期去噪阶段，减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中，VideoRLVR显著优于监督微调基线，尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型，表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KVPO：基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战，现有方法依赖噪声探索和SDE策略，与蒸馏模型的ODE动态不匹配。本文提出KVPO框架，引入因果语义探索范式，将变异源从随机噪声转移至历史键值缓存，构建语义多样的生成分支；同时提出基于轨迹速度能量的速度场代理策略，在流匹配速度空间量化分支可能性，形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv 视频论文/研究

5月13日

10:44

HuggingFace Daily Papers（社区热门论文）

CausalCine：用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine，一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示，并复用历史上下文。其核心是内容感知记忆路由（CAMR）机制，该机制依据注意力相关性动态检索历史关键信息，而非依赖时间邻近性，从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换，再将其蒸馏为少步生成器以实现实时交互。实验表明，CausalCine显著优于自回归基线，并接近双向模型能力，同时解锁了流式交互性。

arXiv 多模态视频论文/研究

5月12日

12:44

HuggingFace Daily Papers（社区热门论文）

精选70

WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准，旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例，涵盖物理、社会、逻辑和信息四大维度及22个子类，要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法：过程感知推理验证通过结构化问答检测时序与因果错误；多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现，当前先进模型在视觉合理性与世界推理能力间存在显著差距，生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由：视频生成越来越像真的，但逻辑和因果一塌糊涂，这个基准把问题量化了，想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。

08:00

HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PresentAgent-2：迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题，并从演示友好型来源进行深度研究，收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式：单人演示（单解说员）、讨论式演示（多演讲者结构化角色）和交互式演示（基于生成内容回答观众问题）。研究团队构建了涵盖三种场景的多模态演示基准，并制定了内容质量、媒体相关性、动态媒体使用等评估标准，从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体 arXiv 多模态视频

5月11日

23:35

IT之家（RSS）

快手可灵被传将以 200 亿美元估值融资，谋求"单飞"上市

快手科技计划分拆旗下AI视频业务可灵，寻求以200亿美元估值进行Pre-IPO融资，目标明年独立上市。可灵是快手自主研发的视频生成大模型，2024年6月上线，2025年1月推出升级版3.0系列。财务数据显示，2025年第四季度可灵营业收入达3.4亿元，12月单月收入突破2000万美元，年化收入运行率已超过3亿美元。公司对可灵在2026年实现收入同比翻倍增长保持较强信心。

行业动态视频

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

5月10日