字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。
字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。
HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。
MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。
VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
全球内容巨头Lionsgate与生成式AI研究公司Runway今日宣布扩大战略合作。Lionsgate已取得Runway股权,双方将启动联合开发项目,共同创作并制作新IP,首推一部基于Lionsgate现有IP和Runway生成模型的短剧系列。此外,Lionsgate将作为主持伙伴参与6月举行的Runway AI电影节。这是双方继2024年9月首次合作后的深化,Lionsgate此前已在预可视化、故事板及最终帧制作中应用Runway工具。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。
Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
Decart 推出 Oasis 3,一个实时世界模型,能够生成逼真的驾驶环境用于自动驾驶车辆测试,现已通过 API 向开发者开放。
自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制,在固定缓存预算下将历史 KV 块组织成时间层次,利用频率依赖的时间衰减(细粒度细节快速去相关,粗粒度场景结构保持更久)。生成时新历史作为细粒度条目插入,较旧相邻条目按幂律调度逐步合并,形成近密远疏内存。无需改动架构,即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。
字节跳动火山引擎今日推出火山方舟版权商业化平台,与周星驰旗下比高集团达成合作,获得《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并打造经典桥段AI创作模板。模板已在火山方舟体验中心、Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。个人用户可上传素材完成二次创作,企业客户可在授权范围内调用IP进行品牌营销。抖音、即梦等平台后续将上线相关功能。
快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。
Lip Forcing提出了自回归扩散方法用于视频到视频唇同步,从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪,无需CFG,实现实时流式处理。技术分析揭示CFG的保真度-同步权衡,进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出,比同规模双向模型快17.6倍;14B学生模型是目前最大的V2V唇同步扩散模型,比教师快39.8倍,保真度接近。首帧时延均小于1毫秒。
WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。
针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
火山引擎今日上线火山方舟版权商业化平台,推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系,已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径,未来还将提供版权管理后台,实现授权可见、使用可查、收入透明。
SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架,通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏,用解耦条件统一子任务,构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导,并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明,该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。
可灵AI与候鸟300联合发起AIGC影像大赛。线下大赛6月16-26日在阿那亚海边举办,评审包括李少红、陈明昊、焦雄屏等影视与AI专家及美院教授,设10万奖金+超200万灵感值,结果6月27日晚揭晓。线上大赛6月22日前投稿可角逐“最受关注大奖”,获奖者受邀参加6月27日颁奖。参赛要求:视频≥50%由可灵AI生成,官网投稿填表并带话题分享。
SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。
Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线,比较原始上下文、压缩记忆、空间摘要(不同读取路径)和状态空间循环四种记忆设计。三分支评估(回放质量、域内循环重访、开放域返回)显示排序常不一致,回放保真度不足以代理世界记忆。发现:原始上下文提升开放域返回远超回放指标;紧凑无法替代容量,激进空间与混合压缩丢失关键证据;块状态空间循环在开放域返回中最强,隐式记忆结构与使用同等重要。
Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。
苹果在 2026 年 WWDC 公布 CarPlay 视频播放功能,仅限适配新款车辆,驻车时通过 AirPlay 投屏观看。iOS 27 允许开发者打造带视频浏览的 CarPlay 应用。AI 版 Siri 将登陆 CarPlay,需 iPhone 15 Pro 及后续机型。四项新优化包括:正在播放界面支持音频进度拖动、GPS 定位与导航准度提升、应用内新增音频迷你播放窗口、无线 CarPlay 连接稳定性改进。所有功能需升级至 iOS 27,开发者测试版今日上线,公开测试版 7 月推送,正式版 9 月面向所有适配机型。
6月7日,生数科技与华策影视签署战略合作协议,共同推动AI与影视产业融合。双方将以华策影视科技产教示范区为载体、生数科技Vidu视频生成大模型为技术底座,设立“AI视听创制中心”,探索AI虚拟制作与实拍结合。同时在浙江华策影视学校设立“华策&生数AI影视创制专业”,课程覆盖传统编导剪与AI视频制作技术。内容生产层面推广“实拍+AI”融合方案并优先在华策项目中试点,创作者生态层面引导Vidu社区超级创作者到产教基地注册。
6月7日,生数科技与华策影视签署战略合作协议,共建“AI视听创制中心”,以Vidu视频生成大模型为技术底座,探索AI虚拟制作与实拍结合,生产高品质视听内容。合作包括在浙江华策影视学校设立“华策&生数AI影视创制专业”,课程覆盖传统编导剪与AI视频制作;推广“实拍+AI”融合方案并在华策项目中优先试点;引导Vidu社区超级创作者入驻产教基地,衔接产业政策与影视生产订单。
现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。
视频生成模型长程一致性因Transformer序列长度过大而困难。MilliVid提出多尺度token空间的粗到细生成:预训练自编码器将每帧压缩为层级token(从典型潜变量分辨率到每帧几个token),最粗层捕获场景布局与语义,细层添加高频外观纹理;再训练视频扩散模型,每步生成精细控制细节等级与上下文,在几何与物体持久性上保持长程一致性,同时减少不必要细节计算开销。在长Minecraft视频数据集上,该方法生成视频显著更一致。
AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。
OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
CoVEBench 是一个组合视频编辑基准,包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项,覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度,并结合自动指标评估视频质量。实验表明,当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影,组合编辑是重大挑战。
百度MEG(移动生态事业群组)进行新一轮组织调整,合并商业部与电商事业部,成立大商业事业部;数字人创新业务部升级为独立部门。在Create 2026百度AI开发者大会上,百度宣布数字人品牌“慧播星”升级为“百度一镜”,并推出“一镜海外版”,将其打造为涵盖直播、视频、实时互动等多形态的全场景数字人平台。李彦宏称数字人是“看得见的智能体”。
MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。
AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而,实际测试结果引发质疑:在拥有全球数据的情况下,Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业,为新兴创作者提供辅助,但权威性有待验证。
6月5日,快手旗下可灵AI宣布全球用户突破1亿,企业客户近5万。过去一年,可灵完成26次迭代,深入影视、广告、音乐MV、游戏、电商、智能硬件等场景,并发布由可灵AI全片生成的两周年短片。据IT之家此前报道,快手正评估拟议重组可灵AI相关资产及业务,或引入外部融资;目前可灵AI正在进行Pre-IPO轮融资,投前估值180亿美元,内部按2027年初递交港股上市申报材料推进。
火山引擎豆包视频生成模型Seedance 2.0以音画同出、全能参考、物理规律遵循、长视频一致性及电影级审美,打通品牌广告高质感创作与效果广告规模化量产。品牌场景已应用于智己汽车、华为手机、芝华仕等;效果广告场景下,30秒素材制作成本30-45元/条,单日稳定产出上百条,AIGC优质素材平均ARPU提升80.2%。基于Seedance 2.0的KickArt 3.0 Agent可实现爆款素材参考生成与批量裂变,已在汽车、3C、电商、快消等行业落地。
一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。