ViGeo是一种前馈基础模型,用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构,支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制,在训练时结合双向和因果时间上下文,并在测试时自适应调整。研究还引入基于补全的数据精炼框架,通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线,仅使用公开数据集训练,便在多个相关视频几何估计任务上达到了最先进水平。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧,导致注意力缓存中的关键值表示占据特权位置,使生成的视频动态性不足、场景进展迟缓,呈现时间上的浅薄性。为此,AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量,模型在每个生成块中将其与内容一起去噪,但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点,使参考点随内容演化。这一设计将时间视为相对概念,为生成过程引入了循环性。实验证明,该自适应状态显著提升了视频动态性,能实现更丰富的运动和自然的场景进展。
minWM 是一个开源全栈框架,能将现有的双向视频扩散基础模型(如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B)转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程,包含可控微调、Causal Forcing++ 流水线与蒸馏步骤,并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。
针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。
阿里云与蒙特卡洛AI电影节合作,宣布将于2026年举办该活动。活动包含6月9日的AI黑客松与社交活动,以及6月10日的主题演讲、圆桌讨论和颁奖典礼。重点展示了基于WAN、HappyHorse及HappyOyster等工具的AI影视创作实践,旨在推动数字叙事的边界。
LVSA是一种无需训练、适用于视频扩散Transformer的块稀疏注意力机制,旨在降低长视频推理的计算成本。它通过结合结构化窗口模式与旋转全局锚点,避免了导致时程伪影的固定网格偏置。该技术在Wan 2.1 1.3B、Wan 2.1 14B及HunyuanVideo 1.5上分别实现了最高3.17倍、2.98倍和3.33倍的计算量缩减,并使HunyuanVideo 1.5在单一GPU上能生成2倍于训练长度的视频。LVSA在NPU上同样有效。此外,论文还提出了VQeval评估工具,专门针对循环视频故障进行评分,以弥补现有评估工具的不足。
本文提出StressDream方法,旨在引导基于扩散的视频世界模型(WM)的想象过程。该方法通过优化初始噪声,将模型的想象引向推理时指定的高影响且合理的场景。它采用两个互补目标:一个利用视觉语言模型的语义目标,另一个是防止噪声偏移的可行性目标。在自动驾驶和机器人操作领域的验证表明,StressDream能有效将想象引向指定的文本场景(如任务失败),从而通过识别那些合理未来包含不良结果的动作,实现稳健的策略评估与改进。
RayDer是一个统一的Transformer前馈模型,将相机估计、场景重建和渲染整合到单一主干网络中。它通过一个被视为干扰因子的最小动态状态来吸收时变内容,从而能够在无约束的真实世界视频上进行稳定训练。该模型以静态场景新视角合成作为目标任务,仅将动态内容用作可扩展的监督信号。实验表明,RayDer在数据量和计算量上展现出清晰的幂律扩展规律,并在大量基准测试中取得了与有监督最先进方法相当的零样本开集性能。
视频语言模型处理帧数有限,帧选择是视频描述的效率瓶颈。现有自适应方法计算成本高。本文提出PEEK,一种高效的动态帧采样方法,通过知识蒸馏将依赖描述信息的帧排序能力从教师模型压缩到仅依赖视觉内容的轻量级时序模型中。实验表明,在ActivityNet Captions和MSR-VTT数据集上,PEEK在所有测试的视觉语言模型上均优于现有方法,尤其在仅选1-2帧时表现最佳。在ActivityNet Captions的16种配置中,PEEK在14种中胜出。该方法仅增加5.2%的描述生成时间,远低于CSTA(65.4%)和MaxInfo(211.9%)。
针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题,Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段,模型仅将轻量生成器与理解模块对齐,学习接收推理驱动的语义控制。推理阶段,则引入统一渐进频率桥接机制,在共享潜空间中逐步将生成任务移交至高容量的预训练生成器,实现由粗到细的优化,生成高质量视频。为评估此能力,研究同时发布了新基准 VR-Bench。实验证明,该模型在 VBench 上视觉真实度和时间连贯性显著提升,并在 VR-Bench 上展现出强大的推理生成性能。
Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算,具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,该框架无需重新训练模型,可实现最高2.59倍的推理加速,同时保持有竞争力的视觉质量。
Gemini Omni seems to outperform everything. Crazy updates for Vibe Video Editing at #google Let's see when this update w...
Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。
零零科技发布哈浮 AQUA 飞行相机,定位为全球首款专为水上运动打造的 100% 防水飞行相机。基础套装零售价 8999 元,畅飞套装 9999 元。机身重量不足 250 克,具备 IP67 防尘防水能力,可抗 7 级大风,最高时速 40 公里。它配备 1/1.28 英寸 CMOS 传感器,支持录制 100 帧/秒的 4K 视频,并内置超过 15 种智能运镜模式(包括桨板、皮划艇、冲浪模式)及 SmoothCapture 稳定系统。该机支持正浮力,可在水面起降。
一部名为《Dreams of Violets》的75分钟AI生成电影将于下月在Tribeca电影节首映,这标志着此类AI生成的剧情长片首次被主流电影节接受。该片虚构演绎了伊朗政府2026年1月对抗议者的大规模镇压事件,影片中的人物与画面完全由AI生成。制作成本仅为2,000美元,其创作基于新闻报道、照片和目击者叙述。电影由离开伊朗的兄弟二人创作,Pooya Koosha联合创立了制作公司Fountain 0,Ash Koosha担任CEO。
Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。
Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...
一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。
@Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...
YouTube推出一项新的AI功能,用户可以通过输入文字提示词(如特定兴趣、心情或主题)来创建个性化的视频内容流。该功能目前面向美国的YouTube登录用户,支持英语,并可在移动端应用或桌面端使用。用户可以在YouTube主页顶部点击“Your custom feed”选项卡,在AI文本框中输入描述来生成并固定自己的定制内容流。
亚马逊MGM工作室与AWS联合推出“生成式AI创作者基金”,为电影制作人提供资金及内部AI平台“Project Nara”的访问权限。三部AI动画剧集已投入制作,其试播集开发周期为五周。亚马逊称其现已拥有“业界唯一的端到端AI内容生态系统”。
第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。
重庆市两江新区市场监管局查处了首例利用AI生成虚假汽车热销视频的违法案件。某企业为推广新能源汽车,使用AI技术炮制了消费者排队抢购的虚假场景视频。市场监管局认定其行为构成虚假广告,且未按规定对AI生成内容进行显著标识,违反了相关法律法规。
可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。
YouTube 更新了 AI 视频标注功能。首先,标注标签位置将更显眼:长视频标签将出现在播放器下方、描述栏上方;Shorts 短视频标签将以覆盖层形式显示在视频上。其次,若系统检测到视频使用了写实类 AI 但创作者未手动声明,系统将自动为其添加 AI 使用标签。创作者可在 YouTube Studio 中更新披露状态。此外,使用 YouTube 自有 AI 工具(如 Veo 或 Dream Screen)创作的内容,以及包含表明其为完全生成式 AI 的 C2PA 元数据的内容,其披露标签将永久显示。
Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models ...
阿里巴巴云宣布与AI Film Festival Monaco 2026合作。活动将于6月9日举行AI Hackathon和沙滩社交预热,6月10日举办正式活动,包含主题演讲、专家小组讨论及颁奖典礼。活动将围绕WAN、HappyHorse、HappyOyster等AI工具在电影制作中的实践应用展开,旨在探索数字叙事的更多可能。
近日,生数科技入选量子位“2026年度值得关注的AIGC企业”榜单。作为全球率先实现数字世界与物理世界统一的通用世界模型公司,其深耕多模态大模型与世界模型技术。此次入选代表行业对其前沿技术、创新能力与产业落地的认可。生数科技将继续推动AI从“生成内容”迈向“理解世界、预测世界、作用于世界”。
提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。
OSP-Next是一种高效的文生视频模型,旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构,稀疏部分基于 Skiparse-2D 注意力。基于此,模型提出了稀疏序列并行策略,相较 Ulysses 序列并行降低了 75% 的通信量。此外,模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明,OSP-Next 在 VBench 上超越了 Wan2.1 基线,并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时,在 Ascend 950PR 上实现了显著的加速。
针对交互式视频生成世界模型多局限于单一智能体的现状,本文提出了Gamma-World,一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding,将AI智能体表示为旋转角空间中的正单形顶点,实现无参数扩展的独立可控制性与置换对称性。为降低计算开销,提出Sparse Hub Attention,通过可学习的枢纽token中介跨智能体交互,将注意力复杂度从二次降至线性。此外,通过将全上下文扩散模型蒸馏为因果模型,结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明,该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案,并能从双人场景泛化至四人场景而无需额外训练。
VideoMLA是首个在视频扩散模型中研究多头潜在注意力(MLA)的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对,将每层每token的KV缓存内存大幅减少92.7%。研究发现,尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立(预训练视频注意力非低秩),但MLA瓶颈本身决定了有效秩,使得模型能在压缩下保持生成质量。在VBench评测中,VideoMLA在长期视频生成中取得了最佳综合分数,并在单块B200上将吞吐量提升了1.23倍。