Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。
Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。
VideoFlexTok提出可变长度粗到细视频token化方法,早期token捕获语义与运动等抽象信息,后期逐步添加细节。相比传统3D网格表示,该方法在保持相当生成质量(gFVD/ViCLIP)的同时,将模型规模从5.2B压缩至1.1B,实现5倍效率提升。其生成流解码器支持任意长度token重建,仅需672个token即可处理10秒81帧长视频,较同类方法减少8倍token用量,显著降低长视频生成成本。
OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。
研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。
Google 面向 Ultra 订阅用户推出 Veo 3.1 Lite 视频生成选项,允许用户在现有订阅权益内免费使用该功能,无需额外扣减积分。Veo 3.1 Lite 作为轻量化视频生成模型,为订阅者提供了更具成本效益的内容创作方案。此次更新降低了高级 AI 视频工具的使用门槛,Ultra 用户可直接调用该功能而无需担心积分消耗。
研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。
研究团队推出Re2Pix分层视频预测框架,将预测任务分解为语义表示预测与表示引导的视觉合成两阶段。该方法先在冻结视觉基础模型的特征空间中预测未来场景结构,再基于这些表示通过潜在扩散模型渲染真实帧。针对训练与推理时的表示不匹配问题,引入嵌套dropout和混合监督两种条件策略。在自动驾驶等复杂动态环境基准测试中,该语义优先设计显著提升了时间语义一致性、感知质量和训练效率。
本文提出一种利用预训练生成模型实现HDR视频生成的方法,无需重新设计模型架构。核心发现是,对数编码可将HDR图像映射至与模型潜在空间自然对齐的分布,仅需轻量级微调即可适配,无需重新训练编码器。此外,基于相机模拟退化的训练策略使模型能从学习先验中推断缺失的高动态范围细节。实验表明,该方法在多样场景和复杂光照条件下均能生成高质量HDR视频,证明通过合适的表示对齐即可有效处理HDR内容。
研究团队推出3DTV前馈网络,实现实时稀疏视角插值与视图合成。该方法结合轻量级几何与深度学习,通过Delaunay三元组选择确保角度覆盖,并引入姿态感知深度模块估计多尺度深度金字塔,支持高效特征重投影与遮挡感知混合。与需要场景特定优化的方法不同,3DTV无需再训练即可前馈运行,在挑战性多视角视频数据集上质量与效率均衡,性能优于现有实时基线,适用于AR/VR、远程呈现等低延迟交互场景。
OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。
视频扩散模型在生成多事件视频时存在时序控制不足和语义纠缠问题。Prompt Relay 是一种推理时即插即用的解决方法,无需修改模型架构或增加计算开销。该技术通过在交叉注意力机制中引入惩罚项,强制各时间段仅关注对应提示,使模型逐次呈现单一语义概念。该方法显著改善时间提示对齐,减少概念干扰,提升生成视频的视觉质量和叙事连贯性。
生数科技完成近20亿元B轮融资,声称将以通用世界模型定义下一代数字与物理世界的生产力底座。
Runway 扩大与 NYU Tisch 艺术学院合作,向 ITP、IMA 及 Hyper Cinema Lab 学生开放全套 AI 工具,支持课程作业与个人创作。Runway 创始团队曾就读于 ITP,此次合作旨在让新一代创作者掌握 AI 时代的电影与艺术工作流。
ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略,无需真实物理标签即可实现端到端推理。在合成数据集测试中,其未来预测 PSNR 达到 21.64,显著优于现有优化基线的 13.27;Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度:仅需不到 1 秒即可完成重建,而传统方法需耗时数小时,为机器人与图形学领域快速生成仿真就绪资产提供了新方案。
Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解,反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法,在单一过程中对视频进行连续流匹配、对文本进行离散流匹配;引入模态驱动的MoE架构,以轻量级层增强Transformer实现文本生成;并通过双向训练机制(知识召回与能力细化两阶段)将生成知识迁移至理解任务。实验表明,该模型在视频生成与理解任务上均达到竞争性性能,验证了以生成为中心的架构路径可行性。
可灵AI与清华大学联合宣布“高校原力计划”正式启动。该计划旨在推动AI视频生成技术在高校的产学研合作,具体细节未在本次公告中披露。
Google Vids 接入 Lyria 3 与 Veo 3.1 模型能力,新增免费 AI 视频生成功能,用户可无成本创建、编辑和分享高质量视频。
可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。
Veo 3.1 Lite 现已开放付费预览,作为 Google 成本效益最高的视频生成模型,支持通过 Gemini API 调用及 Google AI Studio 测试。
Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。
Runway 正式成立 Runway Fund,专注投资 AI、媒体与世界模拟领域的早期初创公司。基金初始规模 1000 万美元,单笔投资最高 50 万美元,重点布局 AI 研究、新应用及新媒体内容三大方向,已投项目包括 Cartesia、LanceDB 等。
昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。
这是一则简短预告,作者为仓促通知致歉,宣布将围绕战争与人工智能、Sora 的终结等话题发布几项公告,同时提供今日现场观看的三种途径,但正文未透露具体发布内容、技术细节或数据指标。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
万兴科技携手生数科技,深度集成Vidu Q3模型,以“大模型+工具+场景”模式,开启“人人都是漫剧创作者”的智能新时代。
Runway 发布 Characters 实时视频 API,支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时,重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤(禁止儿童与公众人物形象)、限制专业领域建议及透明度标识等安全措施,但承认随着技术进步,相关治理挑战仍需持续应对。
Runway 推出内部孵化器 Runway Labs,探索生成式视频与通用世界模型的新应用。由联合创始人 Alejandro Matamala Ortiz 领导,团队将快速原型化前沿实验产品。目前正在招聘设计工程师、ML工程师、全栈工程师及前创业者。
3月13日,Vidu 联合浦光星奕举办「AI新视界 漫剧新潮流——首届AIGC内容产业大会」,邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾,共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。
Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。
生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区,展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型,具备多镜头自由切换、多语言对话及多语种文字渲染能力,旨在为影视制作与内容工业带来全新生产方式。
SGLang-Diffusion发布六项生产级优化,包括Token级序列分片替代帧级方案,消除14.3%的padding开销并将通信量降至0.875倍;并行折叠技术解耦文本编码器与DiT的并行策略;并行VAE实现分布式编解码,消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题,优化视频保存I/O性能,并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。