全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 453 条

全部一手资讯 X 论文

标签「视频」清除

5月25日周一

18:11IT之家（RSS）64上海出台 AI 微短剧新政：支持企业租用智能算力，对优秀剧本给予奖励

08:00HuggingFace Daily Papers（社区热门论文）49评估视频质量模型对扩散模型视频超分辨率的预测准确性

08:00HuggingFace Daily Papers（社区热门论文）53LLaVA-OneVision-2：迈向新一代感知智能

08:00HuggingFace Daily Papers（社区热门论文）56LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

5月24日周日

08:00HuggingFace Daily Papers（社区热门论文）50WorldCraft：从相机导航到物体操作的交互式视频世界模型

08:00HuggingFace Daily Papers（社区热门论文）49勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

5月23日周六

19:05The Verge：AI（RSS）54谷歌发布"万能"AI模型：表现惊人

11:00公众号：可灵AI（快手·视频）43亮相戛纳|可灵AI戛纳论坛精彩回顾

5月22日周五

15:09IT之家（RSS）70美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

15:02公众号：月之暗面（Kimi）37Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

14:02公众号：龙猫LongCat（美团）54从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

13:14HuggingFace Daily Papers（社区热门论文）64基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

13:14HuggingFace Daily Papers（社区热门论文）57一句一剧：基于多智能体系统的个性化短剧生成

10:14HuggingFace Daily Papers（社区热门论文）65基于泰勒级数的时间突变帧选择算法

10:14HuggingFace Daily Papers（社区热门论文）60伯尼尼：基于潜在语义规划的视频扩散模型

08:00HuggingFace Daily Papers（社区热门论文）55EvalVerse：面向专业电影视频生成的流程感知与专家校准基准测试

08:00HuggingFace Daily Papers（社区热门论文）54CRONOS：视频模型反事实物理一致性基准测试

08:00HuggingFace Daily Papers（社区热门论文）48Geo-Align：基于度量几何奖励的视频生成对齐

08:00HuggingFace Daily Papers（社区热门论文）68SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

02:45Runway：News（网页）74同事件精选Runway发布Aleph 2.0视频编辑模型及Edit Studio应用同一事件，精选展示《Aleph 2.0 与 Edit Studio》

5月21日周四

23:30The Verge：AI（RSS）53AI视频技术正在超越低质片段阶段

23:07IT之家（RSS）45剪映国际版与谷歌合作，CapCut 编辑功能将集成到 Gemini 应用

15:59IT之家（RSS）53谷歌 Beam 扩展群组会议能力：真人比例"入座"，自动优化音画表现

15:59IT之家（RSS）65字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

15:27MarkTechPost（RSS）63一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

13:43公众号：京东JoyAI49京东数字人核心能力升级

12:10HuggingFace Daily Papers（社区热门论文）62iTryOn：基于空语义引导的交互式视频虚拟试穿技术

11:05公众号：火山引擎42火山剧创1.0上线：重塑短剧工业化流程，制作周期缩短80%

08:00HuggingFace Daily Papers（社区热门论文）55MotiMotion：基于视觉推理的运动控制视频生成

08:00HuggingFace Daily Papers（社区热门论文）60VGenST-Bench：一个基于主动视频合成的时空推理基准

00:41The Verge：AI（RSS）60你现在可以用AI混剪别人的YouTube Shorts了

00:08HuggingFace Daily Papers（社区热门论文）63基于时空注意力链的快速4D网格生成

5月20日周三

19:09公众号：火山引擎24在戛纳，和电影大师们聊了聊Seedance

18:56IT之家（RSS）67全球首部 95 分钟 AI 长片将在戛纳电影节首映，由字节跳动 Seedance 2.0 生成

11:05HuggingFace Daily Papers（社区热门论文）55MSAVBench：迈向全面可靠的多镜头音视频生成评估

11:05HuggingFace Daily Papers（社区热门论文）65CogOmniControl：基于创意意图认知的推理驱动可控视频生成

09:55IT之家（RSS）62曝字节 Seedance 2.1 模型即将发布，系列已狂揽 AI 视频生成 80% 算力消耗

08:00HuggingFace Daily Papers（社区热门论文）53Q-ARVD：面向自回归视频扩散模型的量化框架

08:00HuggingFace Daily Papers（社区热门论文）68FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

04:29Hacker News 热门（buzzing.cc 中文翻译）80同事件精选Gemini Omni同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月25日

18:11

IT之家（RSS）

64

上海出台 AI 微短剧新政：支持企业租用智能算力，对优秀剧本给予奖励

上海市出台《加快推进人工智能赋能微短剧高质量发展的若干措施》，提出8方面24项举措。政策重点支持企业租用智能算力、调用第三方大模型API、采购语料进行垂类模型训练，并对优秀微短剧剧本给予奖励。措施旨在构建“AI+微短剧”技术体系、搭建公共服务平台、促进文化出海，并在徐汇、杨浦、闵行打造产业集聚区。

政策/监管视频

08:00

HuggingFace Daily Papers（社区热门论文）

49

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv 多模态视频论文/研究

5月24日

08:00

HuggingFace Daily Papers（社区热门论文）

50

WorldCraft：从相机导航到物体操作的交互式视频世界模型

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv 具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

5月23日

19:05

The Verge：AI（RSS）

54

谷歌发布"万能"AI模型：表现惊人

Google发布了新款Gemini AI模型，其核心特点是能跨模态处理“万物到万物”的生成任务，例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验，展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识，即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及，同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。

Google 多模态教程/实践视频

11:00

公众号：可灵AI（快手·视频）

43

亮相戛纳|可灵AI戛纳论坛精彩回顾

行业动态视频

5月22日

15:09

IT之家（RSS）

70

美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级，支持复杂语音输入与多种主体。通过 DMD 蒸馏技术，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在性能评测中，模型在四个关键维度表现领先，用户偏好对比中胜率均超 54%，旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频

关联讨论 1 条美团 LongCat：HuggingFace 新模型

15:02

公众号：月之暗面（Kimi）

37

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:02

公众号：龙猫LongCat（美团）

54

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

13:14

HuggingFace Daily Papers（社区热门论文）

64

基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

传统视觉目标跟踪方法依赖特定任务的监督训练，泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力，但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此，本研究提出SAMOSA框架，通过引入轻量级非线性运动预测器建模目标动态，利用语义线索检测偏移并恢复跟踪，并结合几何约束提升稳定性，从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明，SAMOSA在通用基准上优于现有SAM 2方法，并在反无人机等非线性运动场景中取得显著性能提升。

GitHub 视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

57

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

65

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv 数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

60

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

EvalVerse：面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成，但现有评估主要关注“是否正确”，忽略了“是否优秀”的电影质感。为此，本文提出EvalVerse，一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程（前期、制作、后期）对齐；其次利用大规模人工标注数据集凝练专家判断；最后通过专家校准微调将知识注入视觉语言模型（VLM），使其能进行明确的思维链（CoT）推理。该框架在兼容基础“正确性”指标的同时，将评估显著扩展至“优秀度”，并覆盖多镜头序列与视听整合等复杂任务，为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

CRONOS：视频模型反事实物理一致性基准测试

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

02:45

Runway：News（网页）

同事件精选74

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

产品更新视频

同一事件，精选展示《Aleph 2.0 与 Edit Studio》

推荐理由：精准局部编辑是过去一年 AI 视频工具最大的短板，Aleph 2.0 把这事做对了，预览控制加多镜头编辑让商业视频迭代成本大幅下降。

5月21日

23:30

The Verge：AI（RSS）

53

AI视频技术正在超越低质片段阶段

社交媒体上流传好莱坞将被AI取代的论调，以Daniel Craig骑Vespa、哥斯拉大战金刚等AI生成的短视频为例。然而，这类低成本片段短期内无法替代电影大片。真正值得关注的是，新一代AI视频解决方案正开始改变影视工作室的工作流程。Luma与Wonder Project合作成立新制作公司Innovative Dreams，标志着行业从生成简单片段转向更复杂、可控的影视制作流程，预示着AI视频技术正进入更成熟、更具实用性的新阶段。

现象/趋势视频

23:07

IT之家（RSS）

45

剪映国际版与谷歌合作，CapCut 编辑功能将集成到 Gemini 应用

剪映国际版CapCut宣布与谷歌Gemini展开合作。CapCut的图像和视频编辑功能将集成到Gemini应用中，用户可直接在应用内调用相关工具进行创作。官方称，此举旨在实现更智能、无缝且对话化的未来创作体验。这是双方继去年测试Google Photos与CapCut互通功能后的再次合作。

Google 产品更新视频

15:59

IT之家（RSS）

53

谷歌 Beam 扩展群组会议能力：真人比例"入座"，自动优化音画表现

谷歌在2026年I/O开发者大会上升级3D视频会议平台Google Beam，新增面向群组会议的实验功能。该功能利用AI体积视频模型，从不同视角生成更有纵深感的画面，使参与者呈现接近真人大小的3D形态，并配对空间音频让声音从说话者位置传出。系统自动将2D视频流渲染成围坐一桌的视觉效果，增强“存在感”，而非Beam设备如MacBook或Windows笔记本仍以2D形式接入。

Google 产品更新视频

15:59

IT之家（RSS）

65

字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

字节跳动旗下火山引擎正式上线了一站式AIGC短剧创作平台——火山剧创1.0。该平台深度适配自研模型，依托多智能体架构，可提供从剧本解析到成片预览的端到端智能解决方案，号称将短剧制作周期缩短80%以上，并实现“导演级控片”能力。平台在每个核心环节均向用户开放编辑权限，确保创作控制权。此次升级还新增了企业级协作功能，包括提示词编辑、IP资产库完善及团队积分管理。

产品更新多模态视频

15:27

MarkTechPost（RSS）

63

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

13:43

公众号：京东JoyAI

49

京东数字人核心能力升级

京东数字人近日完成核心能力升级，从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢，帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家，2026年一季度开播量同比激增10倍。该产品为京东自研AI，曾获2024年吴文俊奖，实现长时长、自由态、高频互动，推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音

12:10

HuggingFace Daily Papers（社区热门论文）

62

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

11:05

公众号：火山引擎

42

火山剧创1.0上线：重塑短剧工业化流程，制作周期缩短80%

火山剧创1.0正式发布，旨在重塑短剧工业化生产流程。该产品将短剧制作周期缩短80%，通过标准化、自动化工具链提升效率，降低门槛。火山引擎依托自身技术积累，为短剧行业提供从创意到成片的一站式解决方案。

产品更新视频

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

00:41

The Verge：AI（RSS）

60

你现在可以用AI混剪别人的YouTube Shorts了

Google为YouTube Shorts推出了一项基于Gemini Omni的AI混剪功能。用户可在短视频界面点击“Remix”并选择“reimagine”选项，通过输入文字提示，将原视频转换为像素艺术、动漫或恐怖片风格，还能通过AI调整内容，例如替换服装、插入背景人物甚至将自己合成进视频。该功能允许创作者自主选择开启或关闭其视频的混剪权限。

Google 产品更新多模态视频

00:08

HuggingFace Daily Papers（社区热门论文）

63

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

5月20日

19:09

公众号：火山引擎

24

在戛纳，和电影大师们聊了聊Seedance

火山引擎的Seedance在戛纳电影节上与多位电影大师进行了交流。

18:56

IT之家（RSS）

67

全球首部 95 分钟 AI 长片将在戛纳电影节首映，由字节跳动 Seedance 2.0 生成

5月19日，字节跳动旗下火山引擎在戛纳电影节展示了视频生成模型Seedance 2.0。该技术已获OutpostVFX、WPP等国际企业接入应用。期间将展映8部AI影片，其中包括全球首部95分钟AI长片《HELLGRIND》。该片由15人团队在14天内以不到50万美元成本完成，仅为传统同级影片制作成本的1%。此外，导演吕克·贝松的工作室宣布将使用Seedance 2.0打造其首部AI动画电影。

行业动态视频

11:05

HuggingFace Daily Papers（社区热门论文）

55

MSAVBench：迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench，首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性，并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明，当前模型在导演级控制和精细音视频同步上仍存在瓶颈，而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准

11:05

HuggingFace Daily Papers（社区热门论文）

65

CogOmniControl：基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题，CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM，提升对模糊用户意图的专业理解与推理能力。同时，利用CogOmniDiT模块统一多种条件控制，并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明，CogOmniControl性能超越现有开源模型。

推理视频论文/研究

09:55

IT之家（RSS）

62

曝字节 Seedance 2.1 模型即将发布，系列已狂揽 AI 视频生成 80% 算力消耗

字节跳动即将发布AI视频生成模型Seedance 2.1，其生成质量较当前2.0版本提升约20%，改进重点在于提升视频时间一致性与物理场景模拟效果。该模型预计将整合至剪映等字节系内容创作工具中。目前，Seedance系列已占据AI视频生成领域日均超80%的算力消耗份额，主要竞争对手包括可灵与万相。与此同时，谷歌于近期大会发布了Gemini Omni模型，加剧了该领域的竞争。

模型发布视频

08:00

HuggingFace Daily Papers（社区热门论文）

53

Q-ARVD：面向自回归视频扩散模型的量化框架

自回归视频扩散模型在实时视频生成与世界建模中潜力巨大，但其高昂的推理成本亟待量化技术来缓解。研究发现，现有量化方法直接应用效果欠佳，主要面临两大挑战：一是自回归生成中的误差累积导致帧间量化敏感性严重失衡；二是权重中存在显著且模式多样的异常值通道。为此，本文提出Q-ARVD量化框架，通过引入质量感知的帧加权机制来平衡帧间差异，并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。

arXiv 视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

68

FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

针对视频扩散模型生成长序列时质量下降和运动重复的问题，研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频，利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹，后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频，在时间一致性和视觉质量上超越现有基线，并可扩展至音视频生成与3DGS任务。

图像生成视频论文/研究

04:29

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力，旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞，显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频编辑变成自然语言对话，多轮编辑和物理理解让它从玩具变成创作工具，做视频的值得一试。

1…4 567 8…12