可灵AI在北京举办灵感工坊·4K零距片场电影主题专场活动,现场展示4K级视频创作体验。活动详情与精彩瞬间已在官方渠道发布。
研究团队提出X-WAM,一个统一4D世界模型,首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界,并采用轻量级结构适配器复制预训练扩散Transformer的末端模块,形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术,在推理时采用异步去噪调度,能以更少步数快速解码动作实现实时执行,同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其4D重建与生成质量在视觉和几何指标上均超越现有方法。
OpenRouter 四月发布涵盖视频生成、工作区(workspaces)、Agent SDK、重排序模型(reranker models)以及一批前沿模型(frontier model)的推出。
OpenRouter 在四月推出多项更新,涵盖视频生成、工作区功能、Agent SDK、Reranker 模型以及一批前沿模型。
研究团队提出一个系统性后训练框架,旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段:首先通过监督微调将基础模型转化为稳定的指令跟随策略;随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习,以提升感知质量和时间连贯性;接着集成专用语言模型进行提示词增强以优化用户输入;最后通过推理优化提升系统效率。实验表明,该统一流程能有效减少常见伪影,显著提升可控性和视觉美感,同时严格遵守采样成本限制。
本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。
Vidu发布一键生成AI解说剧产品,实现降本50%、效率提升10倍,重新塑造解说剧生产链路。该产品无需人工剪辑与配音,可自动完成解说剧的全部生成流程,推动内容创作进入全AI化阶段。
针对现有视频基础模型常出现几何不一致的问题,研究团队提出World-R1框架。该框架无需修改底层模型架构,而是通过强化学习,利用预训练的3D基础模型和视觉语言模型的反馈进行优化,从而将视频生成与3D约束对齐。团队构建了专用的世界模拟纯文本数据集,并采用周期性解耦训练策略来平衡几何一致性与场景动态流畅性。评估表明,该方法在保持基础模型原有视觉质量的同时,显著提升了3D一致性,有效弥合了视频生成与可扩展世界模拟之间的差距。
针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题,本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务,通过基于镜头查询的密集视频Transformer,联合估计镜头范围及其内外关系。为规避人工标注不精确,采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时,发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。
X2SAM是一个统一的分割多模态大语言模型,它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块,能依据对话指令和视觉提示生成时间一致的视频掩码,并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD,用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练,X2SAM在视频分割上表现优异,在图像分割基准上保持竞争力,同时保留了通用的图像与视频对话能力。
针对当前智能体视频生成流程存在的语义漂移与级联失败问题,研究团队提出了Co-Director。该框架将视频叙事构建为全局优化问题,其核心是分层参数化设计:全局层采用多臂老虎机探索有潜力的创意方向,局部层通过多模态自优化循环来缓解身份漂移并确保序列一致性,从而平衡叙事策略探索与创意配置利用。为进行评估,团队构建了包含400个场景的个性化广告数据集GenAD-Bench。实验表明,Co-Director在生成连贯性上显著优于现有先进基线,并能无缝泛化至更广泛的电影叙事场景。
可灵AI推出4K实战评测,展示以“一杯奶茶钱”的低成本制作4K分辨率时尚大片的流程与效果,验证AI视频工具在影视级创作中的性价比与可行性。
Talker-T2AV提出了一种自回归扩散框架,用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦:一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端,更符合语音驱动面部合成任务的特点。在语音肖像基准测试中,该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线,实现了比级联方法更强的跨模态一致性。
本研究将时间作为可学习的视觉概念,开发了用于推理与操控视频时序的模型。通过自监督学习,模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此,我们从真实世界视频中构建了最大的慢动作数据集。利用该数据,我们进一步开发了具备时序控制能力的模型,包括按指定速度生成运动的“速度条件视频生成”,以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度,为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。
研究团队提出了一种“语义进度函数”,用于分析和校正图像与视频生成模型中常见的非线性语义演变问题。该方法通过计算序列中每帧语义嵌入的距离,并拟合一条反映累积语义变化的平滑曲线,来揭示语义节奏的不均匀性。基于此,团队进一步提出了一种语义线性化程序,能够对序列进行重新参数化,使语义变化以恒定速率展开,从而产生更平滑、连贯的过渡。该框架是模型无关的,可用于识别时间不规则性、比较不同生成器的语义节奏,并能引导生成视频或真实视频序列朝向任意目标节奏发展。
研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。
CityRAG 是一种新型视频生成模型,通过利用大规模地理注册数据作为上下文,将生成内容锚定到真实物理场景。该模型采用时间未对齐的训练数据,学会从瞬态属性中语义解耦底层场景,从而在保持复杂运动和外观变化先验的同时,实现真实世界重建。实验表明,该系统可生成数分钟长的连贯视频序列,在数千帧内保持天气和光照条件的一致性,支持闭环导航和复杂轨迹重建真实地理环境。
小米技术宣布开源视频消除技术SVOR,可精准移除视频中的路人。该技术针对真实世界视频中掩码边缘不准、阴影残留、快速移动目标闪烁等痛点,采用MUSE窗口化联合策略、DA-Seg去噪感知分割及课程式两阶段训练方案。SVOR在CVPR 2026物理感知视频实例消除挑战赛中从18支队伍中夺冠,并在多个标准数据集上达到SOTA水平。目前相关论文与代码已开源,并提供可直接调用的skill。
AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。
CoInteract框架基于Diffusion Transformer架构,支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块,通过空间监督路由将token分配至区域专家,以极小参数开销提升手部与面部的结构稳定性;并采用Spatially-Structured Co-Generation双流训练范式,联合建模RGB外观与HOI结构流以注入交互几何先验,避免手物穿透。训练时结构流正则化共享权重,推理时移除该分支实现零额外开销。实验表明,该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。
爱奇艺在2026世界大会上发布2026-2027片单,宣布推出《灵魂摆渡》首部全AI生成电影,由原编剧小吉祥天执笔,定档2026年上映;同时公布《凡人修仙传之瀚海迷踪》动画电影将于2027年上映,由原动画团队打造。此外,杨子将继续执导并编剧《捕风追影2》。
YouTube向娱乐行业开放人脸声纹检测工具,用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统,专门检测复制他人外貌或声音特征的AI生成视频及音频,标记后当事人可直接审核并要求移除,无需通过常规举报渠道。该工具于2024年启动测试,今年早些时候已覆盖政府官员及新闻记者,现进一步向演艺明星和娱乐从业者开放,无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。
爱奇艺CEO龚宇回应"AI艺人库"争议,明确科技以人为本,AI应用旨在服务观众与创作者,而非取代人类。针对昨日公布的包含100多位艺人的AI艺人库遭张若昀、于和伟等否认授权一事,龚宇澄清该清单仅表示演员有AI创作授权意愿,实际使用需遵循与现实拍摄相同的规则:逐个项目、角色获得演员及经纪公司同意,并非一次性授权所有项目。
MultiWorld 是一个统一的多智能体多视角视频世界模型框架,突破了现有单智能体方法的局限。该框架引入多智能体条件模块实现精确控制,并通过全局状态编码器确保多视角一致性。系统支持智能体与视角数量的灵活扩展,可并行合成不同视角以提升效率。在多玩家游戏环境和多机器人操作任务中的实验表明,该模型在视频保真度、动作跟随能力和多视角一致性方面均优于基线方法。
研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。
爱奇艺在世界大会公布"AI艺人库"计划,宣布于和伟、张若昀等100多名艺人入驻纳逗Pro艺人库,旨在为AIGC创作者提供规范合作平台。随后张若昀、王楚然等多位艺人否认签署AI授权协议。爱奇艺紧急澄清,入驻仅代表艺人有接洽AI影视项目意愿,但参与具体项目或出演角色仍需单独商谈授权,流程与传统真人影视合作一致。
数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。
本文提出SDVG框架,首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证:1.3B draft模型生成候选块,经VAE解码后采用ImageReward worst-frame评分,高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成,以及通过单一阈值平衡质量与速度。在832x480分辨率下,实现1.59倍加速(保留98.1%质量)至2.09倍加速(保留95.7%),无需训练即可集成到现有流程。
EasyVideoR1 是一款专为视频理解任务设计的强化学习框架,通过离线预处理与张量缓存技术消除冗余视频解码,将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由,采用离线-在线混合数据训练范式,并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准,复现精度与官方报告高度一致,为视觉语言模型的视频推理训练提供了完整高效的基础设施。
可灵AI与艾菲奖联合发起AIGC广告创作大赛,设置潮宏基珠宝、云南白药、华帝、999澳诺四大品牌赛道。奖项包括艾菲奖杯/证书、万元品牌实物奖励及50万灵感值,每个赛道独立评奖。投稿周期即日起至5月25日。早鸟福利:可灵AI联合艾菲评选50件优秀作品,入选作品报名费用全额支持。
研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果,构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例,覆盖9类32子类,从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数,比通用视觉语言模型更符合人类判断。基准测试含300个样本,评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
Vidu与酱油动漫合作,助力仙侠真人剧《教书五年,我教出满门妖神》热映。该剧是红果平台爆款,背后整合了AI视频生成与动漫制作资源,试图以AI赋能真人剧内容生产。