5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

生成式视频模型正迈向专业电影合成，但现有评估主要关注“是否正确”，忽略了“是否优秀”的电影质感。为此，本文提出EvalVerse，一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程（前期、制作、后期）对齐；其次利用大规模人工标注数据集凝练专家判断；最后通过专家校准微调将知识注入视觉语言模型（VLM），使其能进行明确的思维链（CoT）推理。该框架在兼容基础“正确性”指标的同时，将评估显著扩展至“优秀度”，并覆盖多镜头序列与视听整合等复杂任务，为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CRONOS：视频模型反事实物理一致性基准测试

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

02:45

Runway：News（网页）

同事件精选74

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

产品更新视频

同一事件，精选展示《Aleph 2.0 与 Edit Studio》

推荐理由：精准局部编辑是过去一年 AI 视频工具最大的短板，Aleph 2.0 把这事做对了，预览控制加多镜头编辑让商业视频迭代成本大幅下降。

02:38

Runway@runwayml

Aleph 2.0来了。现在你可以编辑视频中的单个帧，预览更改，然后Aleph 2.0会将该编辑应用到整个视频。立即在下方链接的网页版新编辑工作室中尝试。

图像生成模型发布视频

关联讨论 1 条

00:14

PixVerse@PixVerse_

无需工作室，无需编辑队列。将产品URL粘贴到Shoplift by PixVerse，几分钟内即可发布平台原生广告视频 --专为持续进行创意测试的DTC团队打造。免费早期访问：https://shoplift.pixverse.ai 转发+关注+回复=300积分（仅限72小时）

产品更新视频

5月21日

23:30

The Verge：AI（RSS）

AI视频技术正在超越低质片段阶段

社交媒体上流传好莱坞将被AI取代的论调，以Daniel Craig骑Vespa、哥斯拉大战金刚等AI生成的短视频为例。然而，这类低成本片段短期内无法替代电影大片。真正值得关注的是，新一代AI视频解决方案正开始改变影视工作室的工作流程。Luma与Wonder Project合作成立新制作公司Innovative Dreams，标志着行业从生成简单片段转向更复杂、可控的影视制作流程，预示着AI视频技术正进入更成熟、更具实用性的新阶段。

现象/趋势视频

23:07

IT之家（RSS）

剪映国际版与谷歌合作，CapCut 编辑功能将集成到 Gemini 应用

剪映国际版CapCut宣布与谷歌Gemini展开合作。CapCut的图像和视频编辑功能将集成到Gemini应用中，用户可直接在应用内调用相关工具进行创作。官方称，此举旨在实现更智能、无缝且对话化的未来创作体验。这是双方继去年测试Google Photos与CapCut互通功能后的再次合作。

Google 产品更新视频

18:10

Alibaba Cloud@alibaba_cloud

阿里云助力摩纳哥首届AI电影节，重塑电影创作未来

2026年6月，摩纳哥将举办首届AI电影节，标志着人工智能与电影叙事的深度融合。阿里云作为合作方，强调其云与AI基础设施（从基础模型训练到大规模实时渲染）致力于赋能创作者，为电影人、艺术家提供实验与实现大胆创意的工具，共同探索由AI技术驱动的电影制作新范式。

图像生成行业动态视频

15:59

IT之家（RSS）

谷歌 Beam 扩展群组会议能力：真人比例"入座"，自动优化音画表现

谷歌在2026年I/O开发者大会上升级3D视频会议平台Google Beam，新增面向群组会议的实验功能。该功能利用AI体积视频模型，从不同视角生成更有纵深感的画面，使参与者呈现接近真人大小的3D形态，并配对空间音频让声音从说话者位置传出。系统自动将2D视频流渲染成围坐一桌的视觉效果，增强“存在感”，而非Beam设备如MacBook或Windows笔记本仍以2D形式接入。

Google 产品更新视频

15:59

IT之家（RSS）

字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

字节跳动旗下火山引擎正式上线了一站式AIGC短剧创作平台——火山剧创1.0。该平台深度适配自研模型，依托多智能体架构，可提供从剧本解析到成片预览的端到端智能解决方案，号称将短剧制作周期缩短80%以上，并实现“导演级控片”能力。平台在每个核心环节均向用户开放编辑权限，确保创作控制权。此次升级还新增了企业级协作功能，包括提示词编辑、IP资产库完善及团队积分管理。

产品更新多模态视频

15:27

MarkTechPost（RSS）

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

13:43

公众号：京东JoyAI

京东数字人核心能力升级

京东数字人近日完成核心能力升级，从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢，帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家，2026年一季度开播量同比激增10倍。该产品为京东自研AI，曾获2024年吴文俊奖，实现长时长、自由态、高频互动，推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音

12:10

HuggingFace Daily Papers（社区热门论文）

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

11:05

公众号：火山引擎

火山剧创1.0上线：重塑短剧工业化流程，制作周期缩短80%

火山剧创1.0正式发布，旨在重塑短剧工业化生产流程。该产品将短剧制作周期缩短80%，通过标准化、自动化工具链提升效率，降低门槛。火山引擎依托自身技术积累，为短剧行业提供从创意到成片的一站式解决方案。

产品更新视频

08:00

HuggingFace Daily Papers（社区热门论文）

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

07:48

宝玉@dotey

这位博主做了系列 Google Omni vs Seedance 2.0的对比视频，看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google 图像生成视频评测/基准

02:14

Google Gemini@GeminiApp

同事件精选72

使用Gemini Omni创建、混剪和编辑视频比以往任何时候都更容易。它提供了一种流畅的对话式创作和编辑方式。只需从相册上传视频，并让Gemini进行修改即可。

Google 产品更新多模态视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni把视频编辑做成了对话，虽然不算革命性更新，但对随手剪片的普通人来说，不用学剪辑软件就是最大的可用性。

01:16

ViggleAI@ViggleAI

好吧，这是2D版本。稍后回来看看 👀

ViggleAI: Introducing the World's First Meme-powered Game Where you can be anyone, and Fight your colleague Fight your friends Fig...

产品更新图像生成视频

00:41

The Verge：AI（RSS）

你现在可以用AI混剪别人的YouTube Shorts了

Google为YouTube Shorts推出了一项基于Gemini Omni的AI混剪功能。用户可在短视频界面点击“Remix”并选择“reimagine”选项，通过输入文字提示，将原视频转换为像素艺术、动漫或恐怖片风格，还能通过AI调整内容，例如替换服装、插入背景人物甚至将自己合成进视频。该功能允许创作者自主选择开启或关闭其视频的混剪权限。

Google 产品更新多模态视频

00:08

HuggingFace Daily Papers（社区热门论文）

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

5月20日

23:19

Runway@runwayml

Runway AI艺术节将于6月11日在纽约、6月18日在洛杉矶举行，门票仍在发售中。诚邀您共同见证AI在电影、设计、新媒体、时尚、广告及游戏领域创作的杰出作品。请通过下方链接购票。

行业动态视频

23:03

PixVerse@PixVerse_

AI视频的一致性始于动作之前。对于这个15秒的烹饪短片，我们首先在PixVerse中生成了一个清晰的角色分镜。然后将其用作视频的参考。相同的角色。清晰的故事节点。镜头指导。动作细节。转发 + 关注 + 回复 = 分镜工作流

产品更新图像生成视频

22:35

Chubby♨️@kimmonismus

从现在起，我需要知道： Seedance到底有什么魔力，能让他们的Model 2.0在Google I/O之后依然遥遥领先？ Seedance 2.0是在二月发布的（！）。 Model 3.0应该快了，而目前还没有任何模型能接近2.0的水平。

JSFILMZ: Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it's...

Google 图像生成大佬观点视频

19:09

公众号：火山引擎

在戛纳，和电影大师们聊了聊Seedance

火山引擎的Seedance在戛纳电影节上与多位电影大师进行了交流。

其他视频

18:56

IT之家（RSS）

全球首部 95 分钟 AI 长片将在戛纳电影节首映，由字节跳动 Seedance 2.0 生成

5月19日，字节跳动旗下火山引擎在戛纳电影节展示了视频生成模型Seedance 2.0。该技术已获OutpostVFX、WPP等国际企业接入应用。期间将展映8部AI影片，其中包括全球首部95分钟AI长片《HELLGRIND》。该片由15人团队在14天内以不到50万美元成本完成，仅为传统同级影片制作成本的1%。此外，导演吕克·贝松的工作室宣布将使用Seedance 2.0打造其首部AI动画电影。

行业动态视频

16:03

PixVerse@PixVerse_

这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内，五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于，它通过极其详细的设定来确保生成内容的连贯性和真实感：包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动（如抖动、失焦）以及一系列自然的动作序列。

madpencil_: It was fun trying to get this... ideating with AI and and crafting the prompt. Ref images + the Prompt. 🙌😅 { "title":"...

教程/实践视频

13:40

Kling AI@Kling_ai

Kling AI落地好莱坞，工业化应用案例引关注

在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目，吸引了超过4400万全球观众，位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作，以高标准交付大量高质量镜头，证明了AI作为全球电影制作可靠、高效新基础的潜力。

多模态行业动态视频

12:36

Kling AI@Kling_ai

Kling AI推出全球首个原生4K视频生成模型

4月23日，Kling AI正式推出全球首个原生4K视频生成模型，专为专业内容创作设计。该功能支持一键生成真4K画质视频，显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出，这是其工作流中首个使用的原生4K基础模型；Wonder Studios强调，原生4K从底层生成避免了传统放大技术的角色变形问题，保持了画面一致性；动画导演则认为，该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

多模态模型发布视频

12:32

PixVerse@PixVerse_

体型不是一切！仓鼠在奥运会上举重超过了河马！

图像生成行业动态视频

12:06

Kling AI@Kling_ai

Kling AI戛纳展示全流程AI动画制作

Kling AI展示了其在动画《生来如潮》中全流程应用AI技术的实践。该项目以疍家文化为背景，利用Kling AI辅助完成了从美术指导、环境设计到角色动作、电影镜头规划等关键环节。通过AI驱动的动画制作，项目降低了制作门槛，减少了对大规模团队和漫长制作周期的依赖，使高质量、史诗级的视觉叙事变得更高效、更易扩展，指向了更具敏捷性和创作自由度的动画未来。

图像生成行业动态视频

11:11

歸藏(guizang.ai)@op7418

谷歌 Genie 3 实现街景交互生成与风格化

谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像，生成对应的可探索环境，带来强烈的代入感。该功能还支持风格化处理，能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Google 产品更新多模态视频

11:05

HuggingFace Daily Papers（社区热门论文）

MSAVBench：迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench，首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性，并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明，当前模型在导演级控制和精细音视频同步上仍存在瓶颈，而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准

11:05

HuggingFace Daily Papers（社区热门论文）

CogOmniControl：基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题，CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM，提升对模糊用户意图的专业理解与推理能力。同时，利用CogOmniDiT模块统一多种条件控制，并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明，CogOmniControl性能超越现有开源模型。

推理视频论文/研究

11:02

PixVerse@PixVerse_

Cam Live做它最擅长的事！ #PixVerse #F1 #Broadcast #AIvideo

pink shih tzu ponta: お姉さんがこんなところに! Cam Live on PixVerse @PixVerse_ #PixVerse #F1 #Broadcast #AIvideo

产品更新视频

10:05

Berryxia.AI@berryxia

我是想给一些零售连锁品牌做一些类似的实时模型的分析，或者也不用实时，进行视频解析就够了。未来识别会看到更多的类似的场景应用啊~

其他视频

09:55

IT之家（RSS）

曝字节 Seedance 2.1 模型即将发布，系列已狂揽 AI 视频生成 80% 算力消耗

字节跳动即将发布AI视频生成模型Seedance 2.1，其生成质量较当前2.0版本提升约20%，改进重点在于提升视频时间一致性与物理场景模拟效果。该模型预计将整合至剪映等字节系内容创作工具中。目前，Seedance系列已占据AI视频生成领域日均超80%的算力消耗份额，主要竞争对手包括可灵与万相。与此同时，谷歌于近期大会发布了Gemini Omni模型，加剧了该领域的竞争。

模型发布视频

09:14

meng shao@shao__meng

Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同，它采用底层原生设计，支持以意图驱动生成视频，并能通过多轮对话进行编辑，每一步都基于上一结果，确保一致性。该模型融合了Gemini的世界知识与物理直觉，并能将图、文、音视频等任意参考物组合，实现跨模态叙事生成。其目标是“从任何东西创造任何东西”，并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMind Google 多模态模型发布