6月5日

13:14

IT之家（RSS）

xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview，可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后，模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成，适合概念验证、分镜测试和短内容生产，并能通过逐段动画化将多镜头串联为更长场景。

xAI 图像生成模型发布视频

10:46

HuggingFace Daily Papers（社区热门论文）

Future-L1：用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架，让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集，并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上，Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4，超过此前最优 Video-CoE 10.4 分；在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明，将中间视觉语义保留在潜在空间而非转化为文本，有益于未来视频推理。

arXiv 多模态视频论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

LoomVideo：高效统一视频生成与编辑架构

LoomVideo是一个5B参数的高效统一架构，支持视频生成与编辑。它用多模态大语言模型（MLLM）替换标准文本编码器，通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法，直接缩放和加性处理源视频潜变量，避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA，尤其在电商和时尚生成场景表现突出，推理速度相比同类模型提升至少5.41倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StreamForce：流式力控制驱动的实时视频生成框架

StreamForce 是一个因果统一的流式视频生成框架，通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号，并配合蒸馏流程训练，能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS，兼具自回归效率和力响应能力，在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型，能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应，通过轻量级Visual-Spatial Feature Integration（VSFI）模块逐步注入时序对齐的几何先验，并提出Geometry-Adaptive Voxel Compression（GAVC）模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺，构建了超过1M在线时空3D问答对的数据生成流程，并建立涵盖29个任务的benchmark。实验显示，该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv 多模态推理视频

6月4日

17:11

IT之家（RSS）

周星驰入股苏州互动之星：合作打造 AI 剧集，后者手握《凡人修仙传》等 IP

周星驰旗下比高集团战略入股苏州互动之星，双方围绕 AI 剧集、互动影游、真人影视、IP 全产业链运营展开深度合作。互动之星手握 20 余部顶级 IP 全版权，涵盖《凡人修仙传》《绍宋》《悟空传》等。合作重点发力 AI 剧集核心赛道，联合打造 AI 漫剧、AI 拟真人剧。互动影游《绍宋》定档暑期上线，多部横屏 AI 剧集已在制作中，一批真人中剧、短剧进入前期筹备。

行业动态视频

16:18

The Decoder：AI News（RSS）

xAI 更新 Grok Imagine 至 1.5，新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型，能将静态图片转换为最高 720p 分辨率的影视级视频，支持文本提示控制，多个片段可拼接为更长的场景。

xAI 图像生成模型发布视频

10:42

HuggingFace Daily Papers（社区热门论文）

精选79

Echo-Infinity：学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

arXiv 视频论文/研究

推荐理由：论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI 多模态模型发布视频

关联讨论 4 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

08:00

HuggingFace Daily Papers（社区热门论文）

RhymeFlow：异步去噪流调度实现训练无关视频生成加速

基于扩散Transformer（DiT）的视频生成模型因3D注意力平方复杂度导致高推理延迟。现有加速方法在每个去噪步骤内减少计算，但仍要求所有帧经历完整稠密去噪。RhymeFlow提出训练无关框架，解耦不同帧的去噪轨迹：仅对稀疏关键帧执行逐步骤稠密去噪以保持结构完整性，非关键帧逐步跳过步骤降低计算；同时引入潜在轨迹投影模块，使关键帧与完整时序一致的序列表示交互，避免视觉退化。在现有DiT视频生成模型上，RhymeFlow实现了更高推理速度和更好视觉质量。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhaseLock：两步推理锁定运动先验，避免视觉细化阶段擦除物理一致性

图像到视频扩散模型常生成违反物理定律的运动。研究发现，同一模型的两步生成比50步生成物理一致性更好。频谱分析表明，去噪过程中相位退化约18%，幅度保持稳定。基于此，提出无需训练的PhaseLock框架，从仅两步推理提取运动先验，通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化，在多种模型上平均提升物理一致性6.2点，同时保持视觉保真度，额外开销仅1.06倍时间和1.02倍内存，并减少对外部昂贵引导方法的依赖（约5倍时间）。

多模态视频论文/研究

6月3日

22:42

HuggingFace Daily Papers（社区热门论文）

ByG：无需配对数据的流匹配图像/视频编辑框架

提出 Bootstrap Your Generator (ByG) 框架，用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索，结合循环一致性保持结构；通过梯度路由将下游损失反向传播到噪声训练状态，弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA，泛化到未见领域，性能优于用百万级配对样本训练的监督基线。实验表明，从基础模型提取的语义线索提供了稳健的训练信号，无需外部奖励模型。

arXiv 图像生成视频论文/研究

16:09

IT之家（RSS）

消息称字节 Seedance 2.0 模型单月营收已超 10 亿元，且仍在爬升期

据报道，字节跳动旗下视频创作模型 Seedance 2.0 的单月 API 收入已超过10亿元，且仍处于增长期。这一成绩是在其海外 API 尚未正式全量上线的情况下实现的。该模型在多项指标上超越了海外顶尖视频模型 Veo 3 与 Sora 2。此外，即将发布的 Seedance 2.1 版本生成质量预计将比 2.0 提升20%。受此推动，字节火山引擎的 MaaS 业务 2026 年营收目标已上调至150亿元，是其 2025 年全年约15亿元收入的10倍。

行业动态视频

15:09

IT之家（RSS）

快手旗下可灵AI正进行Pre-IPO轮融资，投前估值180亿美元，计划2027年赴港上市

快手旗下视频生成模型可灵AI正在进行分拆后的首轮融资，投前估值为180亿美元（约合1220.14亿元人民币）。此轮为Pre-IPO轮融资，内部计划于2027年年初递交港股上市申报材料。财报显示，可灵AI单季收入超6.5亿元，同比增长超300%，2026年3月年化收入运行率（ARR）近5亿美元。其投前估值约相当于快手当前市值的66%。

行业动态视频

13:38

公众号：火山引擎

精选64

Vibe Creating：让创作回归「表达」本身

火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating，核心是让创作者放下技术负担，用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事，模型自行理解意图并完成景别、光影、节奏的诠释，避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景，并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill，从创意到高质量提示词一步到位。

教程/实践视频

推荐理由：火山引擎把 Seedance 2.0 的用法提炼成「Vibe Creating」方法论，核心是教人用故事感代替镜头术语，虽然不涉及模型升级，但附带可直接套用的手册和 Skill，做 AI 短视频的可以当成 Prompt 指南。

10:41

HuggingFace Daily Papers（社区热门论文）

视觉状态追踪基准VSTAT：评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT，用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段，并配有1500个必须通过连续感知才能回答的问题。测试发现，现有顶尖多模态大语言模型在VSTAT上的表现远低于人类，仅略高于随机答案基线。分析表明，模型的文本推理能力尚可，但视觉感知所必需的事件追踪能力存在不足。初步评估也显示，包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VideoKR：面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料，包含315K个视频推理示例，覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道，并构建了专家标注基准VideoKR-Eval。实验表明，在标准SFT→GRPO流水线下，基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法，同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究

6月2日

20:14

公众号：可灵AI（快手·视频）

截稿在即|可灵AI NEXTGEN高校AIGC创作大赛评委阵容揭晓

可灵AI NEXTGEN高校AIGC创作大赛评审委员会正式官宣，评委包括清华大学双聘教授沈阳、浙江传媒学院教授陈奕、中国美术学院教授杜海滨、中国传媒大学主任丛芳君，以及可灵AI超级创作者汗青、陈升亮。作品征集时间为3月16日至6月7日，获奖名单将于6月18日公示。目前征稿进入最后5天冲刺阶段，优秀获奖作品有机会在首尔电影中心及釜山国际电影节期间展映。

行业动态视频

14:40

HuggingFace Daily Papers（社区热门论文）

LongLive-RAG：用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归（AR）视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成（RAG）问题，不再仅依赖滑动窗口，而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中，它通过查询嵌入检索相关历史潜在变量，使生成器能够利用非局部上下文。为提升检索效果，框架引入了Window Temporal Delta Loss。实验表明，该框架能提升长视频生成质量，在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究

11:40

HuggingFace Daily Papers（社区热门论文）

VLM作为视频推理教师：通过自适应测试时优化实现

本研究提出一种新范式，将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳，但其感知能力强，可评估任务规则满足度。新方法利用VLM提取任务规则，构建可微分奖励，并通过测试时在线优化轻量级LoRA模块，引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上，该方法平均性能提升16.7分，显著优于其他基线方法。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Steady-Forcing：长时序自然视频扩散中空间持久性与运动连续性的平衡

Steady-Forcing 提出记忆与训练框架，结合持久视觉锚点（V-Sink）、指数移动平均运动记忆（EMA-Sink）、块相对时序编码、周期性缓存净化以及经运动奖励先验的 Wan2.1-14B 教师模型知识蒸馏，在多分钟自回归生成中保持背景身份并维持视觉合理的流体动力学。七个基线评估显示该方法提升了长时序背景一致性和成像质量，盲测表明用户感知的稳定性和运动连续性更强。研究还发现 VBench 综合评分未有效惩罚固定相机伪影，而是将漂移引起的光流奖励为动态程度，却未直接惩罚纹理硬化或流动停滞。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AAD-1：用于单步自回归视频生成的不对称对抗蒸馏框架

AAD-1提出一种不对称对抗蒸馏框架，用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题，导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性：生成器保持因果性以保留自回归采样能力，判别器则双向关注完整时空上下文，为整个视频序列输出一个整体真实性分数，从而有效检测全局时间失败和长程漂移。训练采用分阶段策略，先用分布匹配预热使单步生成器接近教师分布，再开始对抗蒸馏。在VBench上，AAD-1取得单步自回归视频生成的最先进性能。

arXiv 图像生成视频论文/研究

01:26

Google Blog：AI（RSS）

谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google 图像生成多模态教程/实践

6月1日

20:22

公众号：卡尔的AI沃茨

LibTV推出3D导演台：用3D构图节点精确控制AI图片/视频中的人物空间关系

针对AI图片和视频中多人场景空间关系控制难的问题，LibTV推出3D导演台功能，在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列，自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位，预设或手动调整视角，截图作为参考图发送到画布，关联人物并编写提示语，即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜，配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系，提升创作可控性。

图像生成教程/实践视频

18:24

Runway：News（网页）

精选61

Runway 在伦敦设立欧洲总部及世界模型研究中心

Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M，到2028年投资额将翻倍以上。过去12个月，其在欧洲的订阅销量增长了50%，企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局，公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队，并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心，旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。

行业动态视频

关联讨论 1 条

推荐理由：Runway 把世界模型研发带到伦敦并承诺 1 亿美元投资，不是新品但战略意义清晰，欧洲的视频创作者和工业仿真团队离顶尖工具更近了，做影视、游戏和机器人的可以关注后续落地。

15:21

公众号：豆包（字节）

豆包爱学上线「豆包课堂」，用 Seedance 视频模型打造 AI 互动古诗文课堂

儿童节前夕，豆包旗下教育 App 豆包爱学推出「豆包课堂」功能，采用字节跳动最新版 Seedance 视频模型，将课本古诗文中的情境融入 AI 生成视频，降低理解门槛。课堂内置 AI 老师主动设问、引导孩子观察思考，同时支持孩子随时提问并得到回应。结合学生对知识点的掌握程度和学习习惯，可即时生成专属 AI 互动课程，实现个性化学习。该功能已在豆包爱学 App 底部导航栏第三入口开放体验。

产品更新视频

14:04

IT之家（RSS）

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构，可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成，将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一，提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理，Edge版本即将推出。

具身智能多模态开源生态模型发布

关联讨论 10 条

08:00

HuggingFace Daily Papers（社区热门论文）

AdaCodec：用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码，仅在场景难以从先前上下文预测时向参考帧分配完整视觉token，否则将帧间变化（运动与预测残差）编码为紧凑的P-tokens。在全部11项基准测试中，AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下，使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线；在五项通用视频基准上平均得分提升，同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究

06:50

Hacker News 热门（buzzing.cc 中文翻译）

《Backrooms》首周票房达8100万美元，表现惊人

《Backrooms》首周末票房达8100万美元，以34%的票房占比打破同期纪录，超越《星球大战》系列成为五月最高开画成绩。但该片票房后劲不足，上映第二、三周票房分别下滑75%和22%。同期上映的《碟中谍》最终累计票房为1.8亿美元。

其他视频

5月31日

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

5月30日

16:21

IT之家（RSS）

阿里巴巴与欧足联达成多年战略合作，成为欧冠、欧洲杯独家 AI 合作伙伴

阿里巴巴与欧足联达成多年战略合作，自2027/2028赛季起成为欧洲冠军联赛、欧足联欧洲联赛、欧足联协会联赛及2028年欧洲杯的官方独家AI、云计算服务及电子商务合作伙伴。合作期间，阿里巴巴将运用包括千问大模型在内的AI能力，为赛事提供球迷互动、内容管理及沉浸式观赛体验，并依托其云计算基础设施和全球电商平台支持欧足联构建下一代AI能力与商品销售。

行业动态视频

02:14

The Decoder：AI News（RSS）

Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞

一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞，Ultra 订阅用户现在获得双倍的视频生成次数，失败的请求也不再计入配额消耗。此外，Google 计划围绕其他使用情况增加更多透明度。

Google 产品更新多模态视频

01:38

Google Blog：AI（RSS）

同事件精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google 多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

5月29日

21:41

公众号：可灵AI（快手·视频）

可灵AI联动多所高校开启AI创作实践，诚征作品共赴创意之约

可灵AI启动高校AI创作实践活动，面向多所高校征集作品，诚征创作者共赴创意之约。

行业动态视频

18:30

HuggingFace Daily Papers（社区热门论文）

迈向一致的视频几何估计

ViGeo是一种前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构，支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制，在训练时结合双向和因果时间上下文，并在测试时自适应调整。研究还引入基于补全的数据精炼框架，通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线，仅使用公开数据集训练，便在多个相关视频几何估计任务上达到了最先进水平。

视频论文/研究

12:29

HuggingFace Daily Papers（社区热门论文）

YOCAUSAL：视频生成距世界模型有多远？一个因果关系的视角

本文提出YOCAUSAL，一个受认知科学“违反期望”范式启发的两层级基准测试，用于评估视频扩散模型（VDMs）的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本，引入“反转惊奇指数”（RSI）量化模型对时间箭头的感知。Level 2引入“因果认知指数”（CCI），利用视觉语言模型将数据集分层，以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明，感知时间箭头并不等同于理解因果关系，当前模型在因果认知方面与人类水平仍存在显著差距。

arXiv 推理视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

AdaState：用于流式视频生成的自我演化锚点

自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧，导致注意力缓存中的关键值表示占据特权位置，使生成的视频动态性不足、场景进展迟缓，呈现时间上的浅薄性。为此，AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量，模型在每个生成块中将其与内容一起去噪，但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点，使参考点随内容演化。这一设计将时间视为相对概念，为生成过程引入了循环性。实验证明，该自适应状态显著提升了视频动态性，能实现更丰富的运动和自然的场景进展。

多模态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

minWM：一个用于实时交互式视频世界模型的全栈开源框架

minWM 是一个开源全栈框架，能将现有的双向视频扩散基础模型（如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B）转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程，包含可控微调、Causal Forcing++ 流水线与蒸馏步骤，并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。

开源生态视频论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题，本文提出了NAVA（原生音视频对齐）框架。该框架在专用交互空间建立音视频对应关系后，利用外部上下文条件化联合去噪过程。具体实现上，NAVA采用Align-then-Fuse MMDiT架构，并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明，NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv 多模态视频论文/研究