Seedance 2.0 视频生成模型正式发布,综合性能达业界 SOTA 水平。新版本支持多模态输入,可同时参考 9 张图片、3 段视频、3 段音频及文本指令,精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成,集成双声道立体声技术,并新增视频延长与编辑功能,可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线,适用于影视、广告、电商等工业级内容创作场景。
关联讨论 1 条字节 Seed:Research Papers(网页内嵌数据)Seedance 2.0 视频生成模型正式发布,综合性能达业界 SOTA 水平。新版本支持多模态输入,可同时参考 9 张图片、3 段视频、3 段音频及文本指令,精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成,集成双声道立体声技术,并新增视频延长与编辑功能,可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线,适用于影视、广告、电商等工业级内容创作场景。
关联讨论 1 条字节 Seed:Research Papers(网页内嵌数据)FireRed-OpenStoryline 今日正式开源,成为首个具备导演思维的视频剪辑Agent,将大模型能力从文本、图像拓展至视频剪辑领域。
Runway 宣布完成 3.15 亿美元 E 轮融资,由 General Atlantic 领投,NVIDIA、Adobe Ventures 等参投。本轮资金将用于预训练下一代 world models 并拓展至新产品和行业。公司正在招聘。
Vidu 全球生态计划正式启航,以“创想共赢”为核心理念,面向全球开放生态合作。该计划由生数科技旗下 Vidu 发起,旨在携手全球伙伴共同推动视频创作生态发展。
Overworld推出实时交互式视频扩散模型Waypoint-1,用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构,在1万小时游戏视频及对应控制数据上训练,从一开始就专注于交互体验,支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行,例如Waypoint-1-Small在RTX 5090上能以30 FPS(4步去噪)或60 FPS(2步去噪)生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。
Veo 3.1 版本新增竖屏视频生成功能,输出画面动态效果更自然生动,在一致性与创造力方面均有提升。
Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72,展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力,可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族,支持物理感知机器人训练、可探索虚拟世界及交互式化身,推动AI从文本理解向物理世界模拟演进。
meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒,将先进的 AI 能力开放给更广泛的开发者社区,推动前沿技术的平民化应用与生态发展。
SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。
MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。
关联讨论 1 条MiniMax:Blog(网页)与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。
美团 LongCat-Video 项目秉持开源与开放科学理念,致力于推进并普及人工智能技术。该项目通过开放源代码的方式,旨在降低 AI 技术应用门槛,打破技术壁垒,促进视频领域人工智能技术的广泛传播与创新发展,体现了推动 AI 技术民主化与开源生态建设的长期愿景。
Veo 3.1 正式发布,带来重大功能更新。此次升级为用户提供更强大的高级创意控制能力,让创作过程更加灵活高效,满足多样化的创意需求。
Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。
Sora 将推出两项更新:一是为版权方提供更细粒度的角色生成控制,允许其指定角色使用方式(包括完全禁止);二是启动视频生成商业化,计划与选择加入的版权方分享用户生成内容带来的收入。OpenAI 表示用户生成量远超预期,许多视频仅面向小众受众。公司特别提到日本创作者的内容产出表现突出,并承诺将像早期 ChatGPT 时代一样快速迭代,根据反馈及时调整策略。
OpenAI发布Sora应用,集成Sora 2模型,支持快速创作、分享和观看视频,团队称其为"创意领域的ChatGPT时刻"。核心功能包括cameo客串特性,可保持角色一致性并将用户及朋友置入视频。团队同时表达对成瘾性和低质内容("slop feed")风险的担忧,提出四项产品原则:优化长期用户满意度、赋予用户信息流控制权、优先鼓励创作、帮助实现长期目标,并配备深度伪造防护和情绪健康监测等安全措施。
Runway与IMAX达成合作,将于8月17日至20日在纽约、洛杉矶等美国10座城市的IMAX影院独家展映2025 AI Film Festival入围影片,共计40场。本届AIFF收到超6000部投稿,最终选出10部AI辅助创作短片,由Gaspar Noé等知名导演评审。此次为AIFF影片首次登陆美国影院,双方将为AI电影提供顶级放映体验,探索新技术与叙事融合的可能。
PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令,生成下一帧画面,支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计,模型处理 48+ 自由度的高维人体控制,解决第一人称视角下身体不可见、感知滞后于动作等挑战,为机器人规划与控制提供世界模型基础。
Parsons School of Design 将于 2025 年秋季开设"Hopepunk and Runway"课程,学生可使用 Runway 工具完成长篇创意项目。课程面向所有 New School 学生,Parsons 学生优先,无需使用经验,结合 hopepunk 科幻流派阅读与 AI 创作实践。
Runway 与 AMC Networks 达成合作,将 AI 模型和工具整合到后者的营销与电视开发流程中。合作涵盖视觉概念开发、营销工作流优化及特效构思,旨在加速预可视化制作并提升宣传素材生产效率。AMC Networks 旗下拥有《绝命毒师》《广告狂人》等知名 IP。
发布新一代生成式媒体模型 Veo 3 与 Imagen 4,以及专为电影制作打造的工具 Flow,支持更高质量的视频与图像生成及专业影视创作流程。
Runway与制片公司Fabula达成合作,将其AI电影工具接入后者全球制作管线。Fabula曾出品《A FANTASTIC WOMAN》等获奖影片,此次合作覆盖从概念构思到VFX的全流程。Sundance获奖导演Cutter Hodierne已在新片《THE SHEPHERD》中使用该工具制作高保真预可视化,实现在剧本阶段即可探索视觉风格,突破传统拍摄后才确立视觉语言的模式。Fabula称这帮助团队快速产出高质量提案物料,Runway则借此进一步支持全球电影人创作。
Runway 与导演 Harmony Korine 创立的数字 IP 工作室 EDGLRD 达成优先开发合作,双方将共同探索 AI 在新媒体制作中的应用。曾执导《KIDS》《SPRING BREAKERS》的 Korine 表示将利用 Runway 工具突破创作边界,EDGLRD 计划在其 IP 和广告制作中更广泛地部署该技术。
导演 Harmony Korine 将加入 Runway 2025 AI 电影节评审团,与 Gaspar Noé、Jane Rosenthal 等业界人士共同担任评委。本届电影节将于 6 月 5 日在纽约林肯中心、6 月 12 日在洛杉矶 The Broad Stage Theater 举办,旨在展示艺术家运用 AI 技术进行电影创作的实验性作品。Korine 表示期待看到以意想不到方式推动创意可能性的作品,主办方称其创新理念与电影节精神高度契合。
Runway 完成 3 亿美元 D 轮融资,General Atlantic 领投,NVIDIA、软银等参投。资金将扩展 Runway Studios AI 影视工作室,并推进 Gen-4 模型研发。Gen-4 支持跨场景一致角色与场景生成,旨在构建基于世界模拟器的新媒体生态。
阿根廷导演 Gaspar Noé(代表作《遁入虚无》《不可撤销》)加入 Runway 第三届 AI 电影节评委团。他对探索 AI 视觉叙事技术表示期待,认为年轻电影人正在用这些工具重塑电影艺术。影片提交截止日期已延长至 4 月 13 日。
Runway 上线 Talent Network,供创意人士展示作品并对接品牌、工作室的工作机会。平台解决 AI 工作流人才需求,首批入驻包括导演 Harmony Korine 的 EDGLRD 等制作公司。
NYU Tisch艺术学院虚拟制作硕士项目引入Runway AI视频工具,2025年春季在Martin Scorsese虚拟制作中心开设"虚拟制作专题"课程。学生可运用生成式AI完成从概念设计、预可视化到毕业作品的全流程创作,由Runway创意合作伙伴Leilanni Todd执教。该课程旨在培养掌握前沿技术的电影人才,应对行业技术变革。项目现正接受2025年秋季入学申请。
Runway 启动学生大使计划,面向艺术、电影、计算机科学等领域学生提供 10 万免费积分、Pro 计划订阅及行业社交资源,降低 AI 视频工具使用门槛。已与 NYU、罗德岛设计学院等全球多所高校建立合作。
Runway 启动 The Hundred Film Fund,面向处于前期或后期制作阶段的 AI 辅助电影项目开放申请。基金规模 500 万美元(有望增至 1000 万),单项资助 5000 至 100 万美元以上,另提供 200 万美元 Runway 积分。Tribeca 电影节联合创始人 Jane Rosenthal、NVIDIA 高管等业界人士组成顾问委员会参与项目指导。
Runway 与 Lionsgate 达成首创性合作,基于后者超过 20,000 部作品的专有片库定制训练 AI 视频生成模型,供电影制作人在前期和后期流程中增强创作。该模型可生成电影级视频并支持迭代编辑,双方未来计划向个人创作者开放模型授权。
Runway 正式发布 Gen-3 Alpha Turbo API,开发者可将其视频生成能力集成至各类应用。目前采取分阶段开放策略,已向 Omnicom 等战略合作伙伴提供访问权限,现阶段主要面向大型团队和组织,未来几周将逐步扩大开放范围。
Runway 联合 Tribeca Festival 2024 于 6 月 8 日免费展映 AI 制作短片及音乐视频,覆盖剧本、剪辑、视效到音效设计全流程,映后设导演 Q&A 环节,探讨 AI 工具如何重塑电影叙事。
研究社区正将扩散模型从图像合成拓展到视频生成这一更复杂任务。视频生成需解决两大核心挑战:一是确保帧间时间一致性,要求模型编码更多世界知识;二是收集高质量视频数据难度远高于文本或图像,文本-视频对数据集尤为稀缺。现有扩散模型在图像领域已取得显著成果,但向视频领域迁移需攻克数据瓶颈与时序建模问题。
Runway 与 Musixmatch 达成合作,后者超100万艺术家社区将可使用 Gen-2 等模型制作动态歌词视频。结合 Musixmatch 歌词语义提取与 Runway 视频生成能力,让音乐视频创作更快、更独特且易于获取,帮助艺术家与全球听众建立更深连接。
Runway 与 Media.Monks 达成合作,为这家 2023 年度 Adweek AI 代理商提供生成式 AI 技术支持,帮助其优化内容创作流程、扩大创意产出规模并节省制作时间。Media.Monks 为 S4Capital 旗下数字营销品牌,此次合作旨在通过 AI 技术重新定义创意表达边界。