Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。
本文提出Causal Forcing++,一种基于因果一致性蒸馏的少步自回归扩散蒸馏管道,旨在实现低延迟、流式的实时交互式视频生成。该方法针对帧级自回归和仅1-2采样步的激进设置,通过单步在线教师ODE监督来高效初始化学生模型,避免了预计算完整轨迹的开销。在帧级2步设置下,其性能超越现有最佳的4步块状方法,在多项评测指标上均有提升,同时将首帧延迟降低50%,并大幅减少训练成本。该管道还可扩展至动作条件世界模型生成。
SANA-WM是一个26亿参数的高效开源世界模型,专为生成一分钟720p高清视频设计,具备精确的6自由度相机控制能力。其核心创新包括:混合线性注意力机制实现高效长上下文建模;双分支相机控制确保轨迹精准跟随;两阶段生成流程提升视频质量与一致性;以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练,在单GPU上即可生成60秒视频,其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中,其动作跟随准确性优于先前开源基线,并在保持相当画质的同时,吞吐量提升36倍。
POV: The SuperSport cameraman finds the main character 😭⚽ The funniest part about these viral stadium cams is how RANDO...
可灵AI将参与第79届戛纳电影节电影市场官方论坛,展示三部合作作品:李炜导演的动画电影《疍家风云》、Jon Erwin导演的电视剧集《House of David》、Eekjun Yang导演的院线电影《RAPHAEL》。论坛主题为“从创意构想到影视工业级落地:可灵AI赋能电影创作流程”,于5月18日15:30-17:30(戛纳当地时间)在戛纳影节宫主舞台举行。
针对生成视频模型作为隐式世界模型时几何一致性评估的挑战,研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测,利用单目重建将其提升至3D世界坐标,并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明,PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷,为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。
本文提出“Warp-as-History”方法,使冻结的视频生成模型无需训练即可零样本遵循指定相机轨迹。该方法将相机运动形变转化为具有目标帧位置对齐和可见令牌选择的伪历史序列,无需修改模型或进行测试时优化。此外,仅需在单条相机标注视频上进行轻量级离线LoRA微调,即可显著提升模型对相机轨迹的跟随能力、视觉质量和运动动态,并能泛化至未见过的视频。实验在多个数据集上验证了该方法的有效性。
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
本文提出实时自回归视频外推网络RAVEN,通过将自生成内容重组为干净历史端点与噪声状态的交织序列,对齐训练与推理时的历史分布,从而提升长序列生成质量。同时,提出一致性模型组相对策略优化方法,将一致性采样步骤重构为条件高斯转移,并直接对其应用在线强化学习,避免了先前方法中的辅助过程。实验表明,RAVEN在多项评估指标上超越近期因果视频蒸馏基线,结合CM-GRPO可进一步获得性能提升。
荣耀CEO李健官宣全球首款机器人手机Robot Phone将于今年第三季度上市。该手机最显著的特点是配备了一颗硕大的电动翻转三轴云台摄像头,内置2亿像素传感器,并支持向前/向后翻转。它融合了荣耀的移动影像技术与电影摄影机厂商ARRI的技术,具备AI物体追踪、AI视频剪辑与智能拍摄功能,号称是新形态的具身智能AI终端。该机外观为银灰色,背面有“α”Logo,曾在MWC 2026展会上亮相。
生成式AI公司Runway宣布在日本东京设立总部,正式进军日本市场,并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一,是其全球企业及自助客户的第三大市场。过去一年,日本企业客户数量增长300%,贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户,并已开始招募日本市场负责人以组建本地团队。
该研究针对多无人机交通监控中因视野重叠导致车辆身份丢失、轨迹断裂的问题,提出一种实时多摄像头多车辆跟踪系统。为解决俯视图下基于外观的重识别方法存在的歧义性与计算成本问题,系统引入了轻量级的拓扑感知时空切换机制。其核心是基于队列的确定性匹配算法,利用几何重叠与虚拟车道离散化来管理身份移交。系统采用基于YOLO11与ByteTrack的高吞吐量并行管道处理并发的4K视频流。实验在复杂城市场景下验证,该系统在连续车流中实现了99.8%的切换成功率,显著优于74.1%的基于外观的重识别基线方法。
现有无训练长视频生成方法因历史KV状态功能纠缠,在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此,本文提出Echo-Forcing框架,包含三个核心机制:分层时间记忆、场景回放帧与差异感知记忆衰减,分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下,支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明,Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。
本文提出FashionChameleon,一个用于自回归视频生成的实时交互式人体-服装定制框架。它仅需单服装视频数据训练,通过三项核心技术实现:采用上下文学习的教师模型,在参考与服装图像不匹配时隐式保持运动连贯性;通过流式蒸馏与上下文学习提升生成一致性与效率;引入无需训练的KV缓存重调度机制,支持生成中多服装交互切换。该系统在单GPU上实现23.8 FPS的实时生成,速度比现有基线快30-180倍,并支持交互式定制与长视频一致性外推。
Flash-GRPO是一种用于视频扩散模型与人类偏好对齐的单步训练框架,解决了现有方法计算成本高和训练不稳定的问题。该方法通过等时分组确保提示词层面的时间一致性,并利用时间梯度校正平衡不同时间步的梯度规模,从而优化策略性能。实验在1.3B至14B参数规模的模型上进行验证,结果显示Flash-GRPO在低计算预算下不仅实现了显著的训练加速,其对齐质量甚至优于全轨迹训练,同时保持了稳定的训练过程和业界领先的对齐性能。
Runway宣布扩张至日本,在东京设立办公室并初始投资4000万美元。日本已成为Runway最大且增长最快的市场之一,过去12个月企业客户基础增长三倍,跃升为全球第三大市场。Yamaha、NHN和SoftBank等公司正采用Runway于营销、广告和创意内容领域。此次扩张使Runway更接近日本在游戏、媒体和机器人行业的领先企业,以进一步拓展业务。
Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。
How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...
PixVerse V6 is starting to blur the line between AI generation and real cinematography. Native Audio. Directional Cinema...
研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
针对一致性蒸馏模型在测试时增加采样步数性能下降的问题,研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习,从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术,通过将完整的欧拉展开分解为捷径流图转换,实现了高效的在线策略蒸馏,有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明,在13亿至140亿参数规模的双向与因果架构上,AnyFlow在少步采样中性能匹配或超越基于一致性的模型,并能随采样步数增加持续提升效果。
EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。
研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。
针对流式自回归视频生成器与人类偏好对齐的挑战,现有方法依赖噪声探索和SDE策略,与蒸馏模型的ODE动态不匹配。本文提出KVPO框架,引入因果语义探索范式,将变异源从随机噪声转移至历史键值缓存,构建语义多样的生成分支;同时提出基于轨迹速度能量的速度场代理策略,在流匹配速度空间量化分支可能性,形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。
✨ From runway to reality... or was it just a dream? Went from posing in the studio straight into bed with a magical port...
Kling AI将于2026年5月18日在戛纳电影节电影市场会议中举办专场活动,主题为“从创意可能到制作现实:Kling AI在电影工作流中的应用”。活动旨在探讨AI辅助电影制作的现状与未来演进。Kling AI通过支持《House of David》、《Born of the Tide》及《RAPHAEL》等项目,展示了AI在好莱坞级制作、全AI生成动画及剧情长片等实际影视生产中的多元化应用。