周星驰旗下比高集团战略入股苏州互动之星,双方围绕 AI 剧集、互动影游、真人影视、IP 全产业链运营展开深度合作。互动之星手握 20 余部顶级 IP 全版权,涵盖《凡人修仙传》《绍宋》《悟空传》等。合作重点发力 AI 剧集核心赛道,联合打造 AI 漫剧、AI 拟真人剧。互动影游《绍宋》定档暑期上线,多部横屏 AI 剧集已在制作中,一批真人中剧、短剧进入前期筹备。
周星驰旗下比高集团战略入股苏州互动之星,双方围绕 AI 剧集、互动影游、真人影视、IP 全产业链运营展开深度合作。互动之星手握 20 余部顶级 IP 全版权,涵盖《凡人修仙传》《绍宋》《悟空传》等。合作重点发力 AI 剧集核心赛道,联合打造 AI 漫剧、AI 拟真人剧。互动影游《绍宋》定档暑期上线,多部横屏 AI 剧集已在制作中,一批真人中剧、短剧进入前期筹备。
xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。
Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...
Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇
Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
Our current favorite Gemini Omni trend: creating a surprising twist using real world footage. Try creating your own! 🧵
xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。
Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》基于扩散Transformer(DiT)的视频生成模型因3D注意力平方复杂度导致高推理延迟。现有加速方法在每个去噪步骤内减少计算,但仍要求所有帧经历完整稠密去噪。RhymeFlow提出训练无关框架,解耦不同帧的去噪轨迹:仅对稀疏关键帧执行逐步骤稠密去噪以保持结构完整性,非关键帧逐步跳过步骤降低计算;同时引入潜在轨迹投影模块,使关键帧与完整时序一致的序列表示交互,避免视觉退化。在现有DiT视频生成模型上,RhymeFlow实现了更高推理速度和更好视觉质量。
图像到视频扩散模型常生成违反物理定律的运动。研究发现,同一模型的两步生成比50步生成物理一致性更好。频谱分析表明,去噪过程中相位退化约18%,幅度保持稳定。基于此,提出无需训练的PhaseLock框架,从仅两步推理提取运动先验,通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化,在多种模型上平均提升物理一致性6.2点,同时保持视觉保真度,额外开销仅1.06倍时间和1.02倍内存,并减少对外部昂贵引导方法的依赖(约5倍时间)。
提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。
Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...
xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。
据报道,字节跳动旗下视频创作模型 Seedance 2.0 的单月 API 收入已超过10亿元,且仍处于增长期。这一成绩是在其海外 API 尚未正式全量上线的情况下实现的。该模型在多项指标上超越了海外顶尖视频模型 Veo 3 与 Sora 2。此外,即将发布的 Seedance 2.1 版本生成质量预计将比 2.0 提升20%。受此推动,字节火山引擎的 MaaS 业务 2026 年营收目标已上调至150亿元,是其 2025 年全年约15亿元收入的10倍。
雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse
快手旗下视频生成模型可灵AI正在进行分拆后的首轮融资,投前估值为180亿美元(约合1220.14亿元人民币)。此轮为Pre-IPO轮融资,内部计划于2027年年初递交港股上市申报材料。财报显示,可灵AI单季收入超6.5亿元,同比增长超300%,2026年3月年化收入运行率(ARR)近5亿美元。其投前估值约相当于快手当前市值的66%。
火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。
VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。
🤓rig+mocap+retarget整个流程走通了。 下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能 想想就好激动。
可灵AI NEXTGEN高校AIGC创作大赛评审委员会正式官宣,评委包括清华大学双聘教授沈阳、浙江传媒学院教授陈奕、中国美术学院教授杜海滨、中国传媒大学主任丛芳君,以及可灵AI超级创作者汗青、陈升亮。作品征集时间为3月16日至6月7日,获奖名单将于6月18日公示。目前征稿进入最后5天冲刺阶段,优秀获奖作品有机会在首尔电影中心及釜山国际电影节期间展映。
In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
LongLive-RAG旨在解决自回归(AR)视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成(RAG)问题,不再仅依赖滑动窗口,而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中,它通过查询嵌入检索相关历史潜在变量,使生成器能够利用非局部上下文。为提升检索效果,框架引入了Window Temporal Delta Loss。实验表明,该框架能提升长视频生成质量,在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。
本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。
Steady-Forcing 提出记忆与训练框架,结合持久视觉锚点(V-Sink)、指数移动平均运动记忆(EMA-Sink)、块相对时序编码、周期性缓存净化以及经运动奖励先验的 Wan2.1-14B 教师模型知识蒸馏,在多分钟自回归生成中保持背景身份并维持视觉合理的流体动力学。七个基线评估显示该方法提升了长时序背景一致性和成像质量,盲测表明用户感知的稳定性和运动连续性更强。研究还发现 VBench 综合评分未有效惩罚固定相机伪影,而是将漂移引起的光流奖励为动态程度,却未直接惩罚纹理硬化或流动停滞。
AAD-1提出一种不对称对抗蒸馏框架,用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题,导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性:生成器保持因果性以保留自回归采样能力,判别器则双向关注完整时空上下文,为整个视频序列输出一个整体真实性分数,从而有效检测全局时间失败和长程漂移。训练采用分阶段策略,先用分布匹配预热使单步生成器接近教师分布,再开始对抗蒸馏。在VBench上,AAD-1取得单步自回归视频生成的最先进性能。