5月29日

08:00

HuggingFace Daily Papers（社区热门论文）

LVSA是一种无需训练、适用于视频扩散Transformer的块稀疏注意力机制，旨在降低长视频推理的计算成本。它通过结合结构化窗口模式与旋转全局锚点，避免了导致时程伪影的固定网格偏置。该技术在Wan 2.1 1.3B、Wan 2.1 14B及HunyuanVideo 1.5上分别实现了最高3.17倍、2.98倍和3.33倍的计算量缩减，并使HunyuanVideo 1.5在单一GPU上能生成2倍于训练长度的视频。LVSA在NPU上同样有效。此外，论文还提出了VQeval评估工具，专门针对循环视频故障进行评分，以弥补现有评估工具的不足。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StressDream：引导视频世界模型以实现稳健的策略评估与改进

本文提出StressDream方法，旨在引导基于扩散的视频世界模型（WM）的想象过程。该方法通过优化初始噪声，将模型的想象引向推理时指定的高影响且合理的场景。它采用两个互补目标：一个利用视觉语言模型的语义目标，另一个是防止噪声偏移的可行性目标。在自动驾驶和机器人操作领域的验证表明，StressDream能有效将想象引向指定的文本场景（如任务失败），从而通过识别那些合理未来包含不良结果的动作，实现稳健的策略评估与改进。

具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RayDer：基于真实世界视频的可扩展自监督新视角合成

RayDer是一个统一的Transformer前馈模型，将相机估计、场景重建和渲染整合到单一主干网络中。它通过一个被视为干扰因子的最小动态状态来吸收时变内容，从而能够在无约束的真实世界视频上进行稳定训练。该模型以静态场景新视角合成作为目标任务，仅将动态内容用作可扩展的监督信号。实验表明，RayDer在数据量和计算量上展现出清晰的幂律扩展规律，并在大量基准测试中取得了与有监督最先进方法相当的零样本开集性能。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PEEK：通过高效知识蒸馏选择关键帧

视频语言模型处理帧数有限，帧选择是视频描述的效率瓶颈。现有自适应方法计算成本高。本文提出PEEK，一种高效的动态帧采样方法，通过知识蒸馏将依赖描述信息的帧排序能力从教师模型压缩到仅依赖视觉内容的轻量级时序模型中。实验表明，在ActivityNet Captions和MSR-VTT数据集上，PEEK在所有测试的视觉语言模型上均优于现有方法，尤其在仅选1-2帧时表现最佳。在ActivityNet Captions的16种配置中，PEEK在14种中胜出。该方法仅增加5.2%的描述生成时间，远低于CSTA（65.4%）和MaxInfo（211.9%）。

arXiv GitHub 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lumos-Nexus：一种基于同质潜空间的高效频率桥接视频统一模型训练框架

针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题，Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段，模型仅将轻量生成器与理解模块对齐，学习接收推理驱动的语义控制。推理阶段，则引入统一渐进频率桥接机制，在共享潜空间中逐步将生成任务移交至高容量的预训练生成器，实现由粗到细的优化，生成高质量视频。为评估此能力，研究同时发布了新基准 VR-Bench。实验证明，该模型在 VBench 上视觉真实度和时间连贯性显著提升，并在 VR-Bench 上展现出强大的推理生成性能。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Light Interaction：交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算，具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明，该框架无需重新训练模型，可实现最高2.59倍的推理加速，同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程

00:19

IT之家（RSS）

零零科技发布全球首款 100% 防水飞行相机哈浮 AQUA，8999 元起

零零科技发布哈浮 AQUA 飞行相机，定位为全球首款专为水上运动打造的 100% 防水飞行相机。基础套装零售价 8999 元，畅飞套装 9999 元。机身重量不足 250 克，具备 IP67 防尘防水能力，可抗 7 级大风，最高时速 40 公里。它配备 1/1.28 英寸 CMOS 传感器，支持录制 100 帧/秒的 4K 视频，并内置超过 15 种智能运镜模式（包括桨板、皮划艇、冲浪模式）及 SmoothCapture 稳定系统。该机支持正浮力，可在水面起降。

产品更新端侧视频

00:13

The Verge：AI（RSS）

一部2，000美元的AI生成电影将在Tribeca电影节首映

一部名为《Dreams of Violets》的75分钟AI生成电影将于下月在Tribeca电影节首映，这标志着此类AI生成的剧情长片首次被主流电影节接受。该片虚构演绎了伊朗政府2026年1月对抗议者的大规模镇压事件，影片中的人物与画面完全由AI生成。制作成本仅为2,000美元，其创作基于新闻报道、照片和目击者叙述。电影由离开伊朗的兄弟二人创作，Pooya Koosha联合创立了制作公司Fountain 0，Ash Koosha担任CEO。

图像生成行业动态视频

5月28日

17:10

The Verge：AI（RSS）

YouTube将允许你用AI制作自定义视频流

YouTube推出一项新的AI功能，用户可以通过输入文字提示词（如特定兴趣、心情或主题）来创建个性化的视频内容流。该功能目前面向美国的YouTube登录用户，支持英语，并可在移动端应用或桌面端使用。用户可以在YouTube主页顶部点击“Your custom feed”选项卡，在AI文本框中输入描述来生成并固定自己的定制内容流。

Google 产品更新视频

17:08

The Decoder：AI News（RSS）

亚马逊构建自有AI制作平台并批准三部AI动画剧集登陆Prime Video

亚马逊MGM工作室与AWS联合推出“生成式AI创作者基金”，为电影制作人提供资金及内部AI平台“Project Nara”的访问权限。三部AI动画剧集已投入制作，其试播集开发周期为五周。亚马逊称其现已拥有“业界唯一的端到端AI内容生态系统”。

产品更新视频

16:44

公众号：可灵AI（快手·视频）

可灵AI携20部4K作品亮相AI on the Lot

第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品，全部由欧洲创作者组织Prompt Club的20位成员创作，探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。

图像生成行业动态视频

16:15

IT之家（RSS）

用 AI 生成排队抢购汽车的虚假视频，重庆两江新区查处新型违法案件

重庆市两江新区市场监管局查处了首例利用AI生成虚假汽车热销视频的违法案件。某企业为推广新能源汽车，使用AI技术炮制了消费者排队抢购的虚假场景视频。市场监管局认定其行为构成虚假广告，且未按规定对AI生成内容进行显著标识，违反了相关法律法规。

行业动态视频

13:15

IT之家（RSS）

谷歌 YouTube 改进 AI 视频标注：位置更显眼，引入 AI 自动检测

YouTube 更新了 AI 视频标注功能。首先，标注标签位置将更显眼：长视频标签将出现在播放器下方、描述栏上方；Shorts 短视频标签将以覆盖层形式显示在视频上。其次，若系统检测到视频使用了写实类 AI 但创作者未手动声明，系统将自动为其添加 AI 使用标签。创作者可在 YouTube Studio 中更新披露状态。此外，使用 YouTube 自有 AI 工具（如 Veo 或 Dream Screen）创作的内容，以及包含表明其为完全生成式 AI 的 C2PA 元数据的内容，其披露标签将永久显示。

Google 产品更新视频

11:50

公众号：生数科技（Vidu·视频）

生数科技入选量子位"2026年度值得关注的AIGC企业"

近日，生数科技入选量子位“2026年度值得关注的AIGC企业”榜单。作为全球率先实现数字世界与物理世界统一的通用世界模型公司，其深耕多模态大模型与世界模型技术。此次入选代表行业对其前沿技术、创新能力与产业落地的认可。生数科技将继续推动AI从“生成内容”迈向“理解世界、预测世界、作用于世界”。

行业动态视频

10:28

HuggingFace Daily Papers（社区热门论文）

从像素到词语--迈向规模化原生One-Vision模型

提出一种名为NEO-ov的原生视觉语言基础模型，它能够端到端地学习跨帧和像素-词语的对应关系，无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界，使得精细、统一的时空建模能力在模型内部原生涌现。研究表明，NEO-ov在精细视觉感知任务上表现优异，大幅缩小了与模块化模型的性能差距，验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。

多模态开源/仓库视频论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

OSP-Next：一种高效的高质量视频生成模型

OSP-Next是一种高效的文生视频模型，旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构，稀疏部分基于 Skiparse-2D 注意力。基于此，模型提出了稀疏序列并行策略，相较 Ulysses 序列并行降低了 75% 的通信量。此外，模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明，OSP-Next 在 VBench 上超越了 Wan2.1 基线，并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时，在 Ascend 950PR 上实现了显著的加速。

视频论文/研究部署/工程

10:28

HuggingFace Daily Papers（社区热门论文）

Gamma-World：超越双人的生成式多智能体世界建模

针对交互式视频生成世界模型多局限于单一智能体的现状，本文提出了Gamma-World，一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding，将AI智能体表示为旋转角空间中的正单形顶点，实现无参数扩展的独立可控制性与置换对称性。为降低计算开销，提出Sparse Hub Attention，通过可学习的枢纽token中介跨智能体交互，将注意力复杂度从二次降至线性。此外，通过将全上下文扩散模型蒸馏为因果模型，结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明，该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案，并能从双人场景泛化至四人场景而无需额外训练。

智能体 arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VideoMLA：面向分钟级自回归视频扩散的低秩潜在 KV 缓存

VideoMLA是首个在视频扩散模型中研究多头潜在注意力（MLA）的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对，将每层每token的KV缓存内存大幅减少92.7%。研究发现，尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立（预训练视频注意力非低秩），但MLA瓶颈本身决定了有效秩，使得模型能在压缩下保持生成质量。在VBench评测中，VideoMLA在长期视频生成中取得了最佳综合分数，并在单块B200上将吞吐量提升了1.23倍。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点：采用混合Diffusion Transformer架构，结合softmax注意力与线性层效率；引入Cycle-Reverse Regularization训练策略，通过从生成内容预测源帧提升时序一致性；以及结合针对NVIDIA Blackwell（RTX 5090）优化的融合GDN内核与混合精度量化（MPQ）实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑，其DiT核心可达58FPS。实验表明，其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。

图像生成视频论文/研究

05:03

Hacker News 热门（buzzing.cc 中文翻译）

YouTube将自动标注AI生成的视频

Google 产品更新视频

01:04

The Decoder：AI News（RSS）

YouTube将尝试从本月开始自动标记AI视频

YouTube将上线一套新的AI内容标签系统，旨在使标签位置更显眼：长视频的标签将显示在播放器下方，Shorts的标签将作为叠加层显示。从2026年5月开始，该平台将启动自动检测系统，即使创作者未主动披露，也会对AI生成内容进行标记。该系统对视频的推荐和变现没有影响。

Google 产品更新视频

5月27日

21:07

The Verge：AI（RSS）

YouTube将AI标签放到用户真正看得见的位置

YouTube重新设计了AI标签的位置，使其更易被发现。对于普通视频和Shorts，标注AI生成内容的标签现在直接显示在视频播放器下方、描述文字之上。同时，平台将开始自动识别并为AI生成的内容添加标签。

Google 产品更新视频

21:07

TechCrunch：AI（RSS）

YouTube 将自动标记 AI 生成视频

YouTube 宣布将自动标记使用了大量逼真 AI 技术生成的视频。此举改变了以往完全依赖创作者主动披露 AI 内容的方式，YouTube 平台将介入并强制标注。同时，平台上的 AI 内容标签将变得更加醒目。

产品更新视频

21:04

The Decoder：AI News（RSS）

中国将老旧摄像头网络转变为AI驱动的大规模监控设备

中国警方正利用AI技术升级数百万旧监控摄像头。海康威视和华为等制造商提供的新型摄像头内置了计算机视觉和大语言模型，可自动检测人群、可疑行为或未经授权访问，警员无需手动审查录像，仅需输入文本查询即可。人权观察警告，此举正催生前所未有的规模化行为监控。

行业动态视频

13:13

IT之家（RSS）

腾讯自研"沧海芯片"夺得莫斯科国立大学硬件视频编码比赛冠军，V2 版本即将量产

腾讯自研视频编解码芯片“沧海”在莫斯科国立大学（MSU）硬件视频编码比赛中，于30—240fps所有速度档位的SSIM、PSNR、VMAF等评测指标均获第一，多项指标领先超30%。沧海V1芯片已部署超10万片。新一代沧海V2芯片已完成点亮并进入量产周期，计划于2026年下半年提供服务，其采用统一硬件架构支持H.265和H.266标准，单芯片处理能力翻倍，且集成GPU核心支持云渲染。

产品更新视频

08:00

HuggingFace Daily Papers（社区热门论文）

哪种预训练范式更能服务于空间智能？对视觉语言模型和视频生成模型的实证比较

本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法，在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性：视觉语言模型在语义与实例任务上更强，而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现，简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示，为构建更强的空间智能骨干模型指明了有前景的方向。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SmartDirector：基于关键帧条件与叙事节奏控制的电影级视频生成

现有视频生成方法多依赖文本或首尾帧等稀疏条件，难以精确控制叙事结构与节奏。为此，本文提出SmartDirector框架，通过引入多个关键帧来增强视频生成的叙事能力，支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段：Director-Gen根据关键帧生成低分辨率视频；Director-SR利用高分辨率关键帧作为语义锚点进行超分优化，以恢复细节。为支持训练，构建了从电影中策划单、多镜头序列的数据管道。实验表明，该方法显著优于现有先进方案。

arXiv 多模态视频论文/研究

02:07

Ars Technica：AI（RSS）

FBI 探员解释识别未经同意发布 AI 色情图像者有多容易

FBI 指出，通过 Instagram 上一个可疑的保存帖子，可以将一名男子与一个 AI 色情账号联系起来。

图像生成政策/监管视频

5月26日

22:34

Runway：News（网页）

精选68

Project Luxo：跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

多模态现象/趋势视频

关联讨论 1 条

推荐理由：Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷，观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑，但一次推广式的成功不等于行业已稳定跨过。

14:21

公众号：火山引擎

网龙×火山引擎：豆包大模型让优质AI课程实现"量产"

网龙与火山引擎达成合作，将底层架构全面上云并率先接入Seedance 2.0 API，依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系，已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一，视频生成模型保障声画同步与角色声线一致，并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程，培训超1万名骨干教师，借助火山引擎全球化部署覆盖190多个国家和地区。

多模态行业动态视频

12:18

HuggingFace Daily Papers（社区热门论文）

Helix4D：复杂动态网格生成

Helix4D是一个动态网格生成框架，旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力，将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量，它采用了滑动窗口跨帧注意力并锚定第一帧。同时，其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度，无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究

12:11

IT之家（RSS）

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频

11:18

HuggingFace Daily Papers（社区热门论文）

精选70

WBench：面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

arXiv 多模态视频论文/研究

推荐理由：视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

10:18

HuggingFace Daily Papers（社区热门论文）

Pantheon360：利用3D感知360°视频扩散来驾驭数字孪生生成

Pantheon360是一个可控的360°视频生成框架，旨在从稀疏的360°输入合成高保真视频，以解决传统透视视频生成器因视野有限而导致的轨迹复杂、跨视角不一致等问题。其核心创新是引入一个从输入中重建的显式3D缓存，作为用户定义任意相机路径的几何支架。这使视频扩散模型能专注于纹理精修，同时由3D缓存强制执行全局几何一致性。实验表明，该框架在视觉质量和几何一致性上表现优越，能够为下游模拟和数字孪生应用提供可靠、灵活的360°场景生成。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架，并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练，提升了动作跟随与轨迹覆盖能力。其核心新增三个模块：从视频潜变量解码本体感受状态的“状态专家”；为生成轨迹评分并提供成功信号与奖励的“世界评判”；以及能实现快速轨迹生成的加速框架。该模型仅2B参数，在WorldArena排行榜上位列第一，优于专用模型与闭源生成器，其训练出的策略能转化为实际世界性能提升。

具身智能视频论文/研究

推荐理由：过去机器人策略训练卡在仿真到真机的鸿沟上，GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了，策略迭代效率可能翻倍，搞具身智能的很值得蹲一下。

5月25日

21:55

公众号：百度智能云（文心）

百度智能云（文心）助力耐高总决赛：哨声响，数据动

耐高总决赛中，百度智能云（文心）以AI技术实现比赛哨声与数据的同步联动，让赛场数据随哨声实时呈现，展示体育赛事场景下的AI应用力量。

行业动态视频

18:16

公众号：火山引擎

在戛纳和贾樟柯导演聊了聊AI：普通人拍电影的时代来了

在戛纳电影节期间，导演贾樟柯与火山引擎探讨AI对电影行业的影响。贾樟柯认为，AI降低了电影制作的技术门槛，让普通人也能参与拍摄和创作，电影行业正迎来平民化变革。

现象/趋势视频

18:13

公众号：生数科技（Vidu·视频）

Vidu 推出 AI 直播礼物特效定制服务

Vidu 推出 AI 直播礼物特效定制服务，支持千人千面的礼物特效实时生成，实现秒级互动体验。

产品更新图像生成视频

18:11

IT之家（RSS）

上海出台 AI 微短剧新政：支持企业租用智能算力，对优秀剧本给予奖励

上海市出台《加快推进人工智能赋能微短剧高质量发展的若干措施》，提出8方面24项举措。政策重点支持企业租用智能算力、调用第三方大模型API、采购语料进行垂类模型训练，并对优秀微短剧剧本给予奖励。措施旨在构建“AI+微短剧”技术体系、搭建公共服务平台、促进文化出海，并在徐汇、杨浦、闵行打造产业集聚区。

政策/监管视频

08:00

HuggingFace Daily Papers（社区热门论文）

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv 视频论文/研究