全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 453 条

全部一手资讯 X 论文

标签「视频」清除

5月20日周三

02:55IT之家（RSS）54谷歌升级 AI 创意平台 Flow：增强视频编辑，Agent 辅助头脑风暴等

01:55IT之家（RSS）77谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

01:48Google DeepMind：Blog（RSS）83同事件精选推出Gemini Omni多模态AI模型同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

5月19日周二

22:53IT之家（RSS）51苹果收购虚拟形象软件公司 Animato，有望优化 Vision Pro Persona 功能

14:50Hacker News 热门（buzzing.cc 中文翻译）68Agora-1：多智能体世界模型

14:28公众号：可灵AI（快手·视频）24可灵AI与候鸟300发起"候鸟记忆复活计划"

13:56HuggingFace Daily Papers（社区热门论文）68基于智能体规划的物理一致性视频生成

12:55HuggingFace Daily Papers（社区热门论文）64Incantation：自然语言作为多实体视频世界模型的动作接口

11:51HuggingFace Daily Papers（社区热门论文）66LongLive-2.0：用于长视频生成的NVFP4并行基础设施

11:51HuggingFace Daily Papers（社区热门论文）59Lance：基于多任务协同的统一多模态建模

08:00HuggingFace Daily Papers（社区热门论文）35HL-OutPaint：高分辨率长时视频的由粗到精视频外绘

08:00HuggingFace Daily Papers（社区热门论文）51ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

00:52Hugging Face：Blog（RSS）67精选NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

5月18日周一

16:07公众号：可灵AI（快手·视频）56可灵AI上线全球首个原生4K视频模型

13:45IT之家（RSS）46人民陆军英模系列 AI 微短剧《战魂》今起首播，5 段烽火传奇还原经典战役战斗

08:00HuggingFace Daily Papers（社区热门论文）55OmniPro：全模态主动流式视频理解综合基准

08:00HuggingFace Daily Papers（社区热门论文）55增强无训练无限帧生成以实现一致长视频

08:00HuggingFace Daily Papers（社区热门论文）61Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

07:44IT之家（RSS）54Netflix 成立 AI 工作室 INKubator，发力生成式动画短片

07:44IT之家（RSS）55警惕 AI 造谣传谣！"张家界大峡谷玻璃桥断裂垮塌"视频系伪造

5月17日周日

11:00公众号：可灵AI（快手·视频）35戛纳倒计时|可灵AI戛纳论坛议程抢先看

08:00HuggingFace Daily Papers（社区热门论文）45Soap2Soap：基于多智能体协作的长片电影级视频重制

08:00HuggingFace Daily Papers（社区热门论文）61LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

5月16日周六

23:31Hacker News 热门（buzzing.cc 中文翻译）73精选SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

20:25The Decoder：AI News（RSS）59YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具

19:25The Decoder：AI News（RSS）44新基准测试证实AI视频生成器视觉效果惊艳，但仍无法进行世界推理

5月15日周五

12:49HuggingFace Daily Papers（社区热门论文）67Causal Forcing++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏方法

11:49HuggingFace Daily Papers（社区热门论文）62SANA-WM：高效的分钟级世界模型，实现高清长视频生成与精准相机控制

11:00公众号：可灵AI（快手·视频）52可灵AI即将亮相第79届戛纳国际电影节！

10:48HuggingFace Daily Papers（社区热门论文）67量化评估生成视频几何一致性的框架PDI-Bench

10:48HuggingFace Daily Papers（社区热门论文）68Warp-as-History：仅需一条训练视频即可泛化的相机控制视频生成

09:48HuggingFace Daily Papers（社区热门论文）63RAVEN：基于一致性模型GRPO的实时自回归视频外推网络

09:41IT之家（RSS）54荣耀李健官宣：全球首款机器人手机 Robot Phone 三季度上市

08:10Runway：News（网页）67精选Runway正式进军日本市场，在东京设立总部并投入4000万美元

08:00HuggingFace Daily Papers（社区热门论文）26面向连续多无人机跟踪的拓扑感知时空切换框架

08:00HuggingFace Daily Papers（社区热门论文）62Echo-Forcing：面向交互式长视频生成的场景记忆框架

08:00HuggingFace Daily Papers（社区热门论文）56FashionChameleon：面向实时交互式人体-服装视频定制

08:00HuggingFace Daily Papers（社区热门论文）61Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐

5月14日周四

11:53CMU：Machine Learning Blog63精选教视觉-语言模型说"电影语言"

10:45HuggingFace Daily Papers（社区热门论文）62AnyFlow：基于在线策略流图蒸馏的任意步数视频扩散模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月20日

02:55

IT之家（RSS）

54

谷歌升级 AI 创意平台 Flow：增强视频编辑，Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow，重点整合Gemini Omni Flash模型，显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent，能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google 产品更新多模态视频

01:55

IT之家（RSS）

77

谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上，谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力，“Omni”意为全能，能够无缝处理文本、图像、音频和视频等多种信息模态，实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑，用户可通过自然语言指令轻松修改视频元素。同时，谷歌发布了首款衍生模型Gemini Omni Flash，现已在Gemini App、Google Flow和YouTube Shorts中可用，后续将提供API服务。

Google 多模态模型发布视频

01:48

Google DeepMind：Blog（RSS）

同事件精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMind Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

5月19日

22:53

IT之家（RSS）

51

苹果收购虚拟形象软件公司 Animato，有望优化 Vision Pro Persona 功能

苹果公司收购了专注于虚拟形象技术的初创公司 Animato。该公司由前苹果计算机视觉团队工程师弗朗切斯科·罗西于2022年10月创立，主要开发适用于视频通话场景的虚拟形象软件。此次收购于2026年1月19日依据欧盟《数字市场法案》完成报备并被披露，旨在增强苹果 Vision Pro 头显的虚拟人像（Persona）功能，进一步布局人工智能与图像视觉领域。

行业动态视频

14:50

Hacker News 热门（buzzing.cc 中文翻译）

68

Agora-1：多智能体世界模型

Agora-1是一个新发布的多智能体世界模型，旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作，可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频

14:28

公众号：可灵AI（快手·视频）

24

可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划，邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材，通过可灵AI续写创作。活动即日起至5月31日，带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品，各奖励12,000灵感值。

图像生成行业动态视频

13:56

HuggingFace Daily Papers（社区热门论文）

68

基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现，文本提示作为物理世界的有损压缩，是导致生成结果缺乏物理一致性的根本瓶颈。为此，我们提出NEWTON系统，其核心是将视频生成从独立的系统输出，降级为智能体工具箱中的一个动作。系统通过一个学习型规划器，协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息，并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下，实验表明该系统在VideoPhy-2基准上，将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点，显著增强了视频的物理一致性。

智能体视频论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

64

Incantation：自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型，采用自然语言作为动作接口，实现每潜变量帧（0.25秒）的精细控制。它支持同时多实体操控与概念级跨实体迁移，突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制，并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中，准确率达89%，大幅超越Action-Index基线的43%；词表外提示准确率为9

多模态视频论文/研究

11:51

HuggingFace Daily Papers（社区热门论文）

66

LongLive-2.0：用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施，旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法，结合NVFP4精度以降低显存成本并加速计算，且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型，并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码，在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍，推理加速1.84倍，其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程

11:51

HuggingFace Daily Papers（社区热门论文）

59

Lance：基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance，支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖，探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则：统一上下文建模与解耦能力路径。Lance从头训练，采用共享交织多模态序列的双流专家混合架构，并引入模态感知旋转位置编码以减少异构视觉标记间的干扰，增强跨任务对齐。训练采用分阶段多任务范式，结合能力导向的目标与自适应数据调度。实验表明，Lance在图像与视频生成任务上显著优于现有开源统一模型，同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

HL-OutPaint：高分辨率长时视频的由粗到精视频外绘

HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略，包含两阶段管线：首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导（GCG），以统一表示视频的长期结构一致性与短期时间动态；随后在该表示的引导下，进行高分辨率的外绘，生成细节丰富且时间一致的内容。实验表明，其在宽空间外推和长视频序列的挑战性场景中优于现有方法。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习（RL）训练大语言模型（LLM）调用视频工具（如裁剪）的方法是顺序执行的，易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架，能在单次调用中分派多个时间窗口裁剪任务。研究发现，预训练模型中存在“工具先验悖论”：既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题，提出了PARA-GRPO方法，通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上，相比Qwen3-VL基线平均提升了7.9%，并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月18日

16:07

公众号：可灵AI（快手·视频）

56

可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型，旨在利用原生4K技术重塑创作流程，加速AI赋能影视工业级内容创作。

产品更新多模态视频

13:45

IT之家（RSS）

46

人民陆军英模系列 AI 微短剧《战魂》今起首播，5 段烽火传奇还原经典战役战斗

陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心，首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇，以全新视听形式还原经典战役战斗，并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道，连续5天每日播出一集。

多模态行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

55

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

增强无训练无限帧生成以实现一致长视频

针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题，研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度，有效弥合了训练与推理的差距；并创新性地引入双一致性增强机制，结合自反射修正与长距离帧引导，利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上，MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能，项目主页已公开。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系，并在此基础上定义了三项任务：真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明，这些模型在瑕疵感知与推理上存在显著局限，许多模型在挑战性场景中表现接近甚至低于随机水平，且其判断与人类感知偏好存在明显偏差，凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv 多模态视频论文/研究

07:44

IT之家（RSS）

54

Netflix 成立 AI 工作室 INKubator，发力生成式动画短片

Netflix正在组建名为INKubator的内部AI动画工作室，专注于利用生成式人工智能制作短篇动画。该工作室正招募制片人、软件工程师等人才，其长期战略将围绕生成式AI驱动的工作流、艺术家工具及可扩展的多剧集环境展开，目标是开发电影长片质量的内容。这是Netflix在AI制作领域的又一重要布局，此前该公司已收购AI影视技术公司Interpositive，并多次强调对AI技术的投入。

行业动态视频

07:44

IT之家（RSS）

55

警惕 AI 造谣传谣！"张家界大峡谷玻璃桥断裂垮塌"视频系伪造

近日，一段“湖南张家界大峡谷玻璃桥断裂垮塌”的13秒视频在网上流传，画面惊险，引发关注。经查，该视频系嫌疑人马某某利用AI技术，将其十年前在景区拍摄的照片生成伪造而成。视频发布4天内获1.5万点赞、1.1万转发，下架后马某某又截取图片再次发布。目前相关虚假视频已全部清理，马某某因涉嫌编造、故意传播虚假信息罪被公安机关采取刑事强制措施。

行业动态视频

5月17日

11:00

公众号：可灵AI（快手·视频）

35

戛纳倒计时|可灵AI戛纳论坛议程抢先看

行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

45

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

61

LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈，本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此，我们提出了LiteFrame，一种高效视觉编码器。其核心是压缩Token蒸馏训练框架，指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示，从而避免冗余计算。结合语言模型适配后，该方案构建了新的延迟-精度帕累托前沿：与基线相比，它将端到端延迟降低了35%，可处理帧数提升8倍，同时在多个基准上提高了视频理解的平均准确率，为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究

5月16日

23:31

Hacker News 热门（buzzing.cc 中文翻译）

精选73

SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM，这是一个参数规模达26亿的开源世界模型，专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源，旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度，显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由：开源且能跑 1 分钟 720p，NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步，做视频生成和物理仿真的同行该坐不住了。

20:25

The Decoder：AI News（RSS）

59

YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具

YouTube 将其“肖像检测”工具向所有18岁及以上的创作者全面开放。该系统能识别其他用户视频中由AI生成的人脸伪造内容，并允许创作者直接通过YouTube Studio提交移除请求。此前该功能仅限于合作伙伴计划成员使用，此次开放旨在为更多小型频道提供保护。

产品更新安全/对齐视频

19:25

The Decoder：AI News（RSS）

44

新基准测试证实AI视频生成器视觉效果惊艳，但仍无法进行世界推理

WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性，而非图像质量。ByteDance的Seedance 2.0在该测试中领先，超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍，逻辑推理是所有模型中最困难的类别，表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果，但尚未实现从像素生成器到真实世界模型的飞跃。

Google OpenAI 推理视频

5月15日

12:49

HuggingFace Daily Papers（社区热门论文）

67

Causal Forcing++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏方法

本文提出Causal Forcing++，一种基于因果一致性蒸馏的少步自回归扩散蒸馏管道，旨在实现低延迟、流式的实时交互式视频生成。该方法针对帧级自回归和仅1-2采样步的激进设置，通过单步在线教师ODE监督来高效初始化学生模型，避免了预计算完整轨迹的开销。在帧级2步设置下，其性能超越现有最佳的4步块状方法，在多项评测指标上均有提升，同时将首帧延迟降低50%，并大幅减少训练成本。该管道还可扩展至动作条件世界模型生成。

视频论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

62

SANA-WM：高效的分钟级世界模型，实现高清长视频生成与精准相机控制

SANA-WM是一个26亿参数的高效开源世界模型，专为生成一分钟720p高清视频设计，具备精确的6自由度相机控制能力。其核心创新包括：混合线性注意力机制实现高效长上下文建模；双分支相机控制确保轨迹精准跟随；两阶段生成流程提升视频质量与一致性；以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练，在单GPU上即可生成60秒视频，其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中，其动作跟随准确性优于先前开源基线，并在保持相当画质的同时，吞吐量提升36倍。

具身智能多模态视频论文/研究

11:00

公众号：可灵AI（快手·视频）

52

可灵AI即将亮相第79届戛纳国际电影节！

可灵AI将参与第79届戛纳电影节电影市场官方论坛，展示三部合作作品：李炜导演的动画电影《疍家风云》、Jon Erwin导演的电视剧集《House of David》、Eekjun Yang导演的院线电影《RAPHAEL》。论坛主题为“从创意构想到影视工业级落地：可灵AI赋能电影创作流程”，于5月18日15:30-17:30（戛纳当地时间）在戛纳影节宫主舞台举行。

行业动态视频

10:48

HuggingFace Daily Papers（社区热门论文）

67

量化评估生成视频几何一致性的框架PDI-Bench

针对生成视频模型作为隐式世界模型时几何一致性评估的挑战，研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测，利用单目重建将其提升至3D世界坐标，并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明，PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷，为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。

arXiv 视频论文/研究评测/基准

10:48

HuggingFace Daily Papers（社区热门论文）

68

Warp-as-History：仅需一条训练视频即可泛化的相机控制视频生成

本文提出“Warp-as-History”方法，使冻结的视频生成模型无需训练即可零样本遵循指定相机轨迹。该方法将相机运动形变转化为具有目标帧位置对齐和可见令牌选择的伪历史序列，无需修改模型或进行测试时优化。此外，仅需在单条相机标注视频上进行轻量级离线LoRA微调，即可显著提升模型对相机轨迹的跟随能力、视觉质量和运动动态，并能泛化至未见过的视频。实验在多个数据集上验证了该方法的有效性。

图像生成视频论文/研究

09:48

HuggingFace Daily Papers（社区热门论文）

63

RAVEN：基于一致性模型GRPO的实时自回归视频外推网络

本文提出实时自回归视频外推网络RAVEN，通过将自生成内容重组为干净历史端点与噪声状态的交织序列，对齐训练与推理时的历史分布，从而提升长序列生成质量。同时，提出一致性模型组相对策略优化方法，将一致性采样步骤重构为条件高斯转移，并直接对其应用在线强化学习，避免了先前方法中的辅助过程。实验表明，RAVEN在多项评估指标上超越近期因果视频蒸馏基线，结合CM-GRPO可进一步获得性能提升。

arXiv 视频论文/研究

09:41

IT之家（RSS）

54

荣耀李健官宣：全球首款机器人手机 Robot Phone 三季度上市

荣耀CEO李健官宣全球首款机器人手机Robot Phone将于今年第三季度上市。该手机最显著的特点是配备了一颗硕大的电动翻转三轴云台摄像头，内置2亿像素传感器，并支持向前/向后翻转。它融合了荣耀的移动影像技术与电影摄影机厂商ARRI的技术，具备AI物体追踪、AI视频剪辑与智能拍摄功能，号称是新形态的具身智能AI终端。该机外观为银灰色，背面有“α”Logo，曾在MWC 2026展会上亮相。

产品更新端侧视频

08:10

Runway：News（网页）

精选67

Runway正式进军日本市场，在东京设立总部并投入4000万美元

生成式AI公司Runway宣布在日本东京设立总部，正式进军日本市场，并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一，是其全球企业及自助客户的第三大市场。过去一年，日本企业客户数量增长300%，贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户，并已开始招募日本市场负责人以组建本地团队。

行业动态视频

推荐理由：Runway 在日本已有 300% 企业增长，这次砸 4000 万美元设东京办公室，对关注亚洲市场的人来说是个信号，AI 视频工具的全球化布局正在加速。

08:00

HuggingFace Daily Papers（社区热门论文）

26

面向连续多无人机跟踪的拓扑感知时空切换框架

该研究针对多无人机交通监控中因视野重叠导致车辆身份丢失、轨迹断裂的问题，提出一种实时多摄像头多车辆跟踪系统。为解决俯视图下基于外观的重识别方法存在的歧义性与计算成本问题，系统引入了轻量级的拓扑感知时空切换机制。其核心是基于队列的确定性匹配算法，利用几何重叠与虚拟车道离散化来管理身份移交。系统采用基于YOLO11与ByteTrack的高吞吐量并行管道处理并发的4K视频流。实验在复杂城市场景下验证，该系统在连续车流中实现了99.8%的切换成功率，显著优于74.1%的基于外观的重识别基线方法。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

Echo-Forcing：面向交互式长视频生成的场景记忆框架

现有无训练长视频生成方法因历史KV状态功能纠缠，在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此，本文提出Echo-Forcing框架，包含三个核心机制：分层时间记忆、场景回放帧与差异感知记忆衰减，分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下，支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明，Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。

arXiv GitHub 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

FashionChameleon：面向实时交互式人体-服装视频定制

本文提出FashionChameleon，一个用于自回归视频生成的实时交互式人体-服装定制框架。它仅需单服装视频数据训练，通过三项核心技术实现：采用上下文学习的教师模型，在参考与服装图像不匹配时隐式保持运动连贯性；通过流式蒸馏与上下文学习提升生成一致性与效率；引入无需训练的KV缓存重调度机制，支持生成中多服装交互切换。该系统在单GPU上实现23.8 FPS的实时生成，速度比现有基线快30-180倍，并支持交互式定制与长视频一致性外推。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐

Flash-GRPO是一种用于视频扩散模型与人类偏好对齐的单步训练框架，解决了现有方法计算成本高和训练不稳定的问题。该方法通过等时分组确保提示词层面的时间一致性，并利用时间梯度校正平衡不同时间步的梯度规模，从而优化策略性能。实验在1.3B至14B参数规模的模型上进行验证，结果显示Flash-GRPO在低计算预算下不仅实现了显著的训练加速，其对齐质量甚至优于全轨迹训练，同时保持了稳定的训练过程和业界领先的对齐性能。

安全/对齐视频论文/研究

5月14日

11:53

CMU：Machine Learning Blog

精选63

教视觉-语言模型说"电影语言"

研究团队与百余名专业创作者历时一年，构建了一个视频描述生成流程，其核心在于扩展精细化的人类-AI协同监督，而非单纯扩大模型规模。该研究（入选CVPR 2026亮点论文）指出，当前主流视频生成模型在理解和生成具有电影感的专业运镜（如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头）时存在明显不足，常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

多模态视频论文/研究

推荐理由：这篇CVPR 2026 Highlight的博客版很有意思，它用100多个专业电影人来标注视频，教VLM学会推拉摇移的镜头语言，不是又多一个数据集，而是提醒我们：高质量的人工标注可能比堆模型更重要。

10:45

HuggingFace Daily Papers（社区热门论文）

62

AnyFlow：基于在线策略流图蒸馏的任意步数视频扩散模型

针对一致性蒸馏模型在测试时增加采样步数性能下降的问题，研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习，从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术，通过将完整的欧拉展开分解为捷径流图转换，实现了高效的在线策略蒸馏，有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明，在13亿至140亿参数规模的双向与因果架构上，AnyFlow在少步采样中性能匹配或超越基于一致性的模型，并能随采样步数增加持续提升效果。

多模态视频论文/研究

1…5 678 9…12