美团开源 LongCat-Video-Avatar 1.5:数字人视频从"彩排"走向"真舞台",生成 10 秒视频仅需 1 分钟
阅读原文· ithome.com美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
IT之家 5 月 22 日消息,美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。
官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级,定位从“开源 SOTA”走向“商业级应用”。
据介绍,这一版本在基础体验上进行了强化,能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。
在场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。
推理部署方面,LongCat-Video-Avatar 1.5 采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成一段 10 秒视频仅需约 1 分钟。
从技术架构来看,1.5 版本主要在三方面实现升级。首先是基础体验的商用化,模型将音频特征提取编码器从 Wav2Vec2 升级为 Whisper-large,凭借更大的参数量和更丰富的多语言先验,能够更细致地捕捉音素变化与发音节奏,从而提升唇形同步与全身时序稳定性,减少长视频中的抖动、跳帧和身份漂移。
龙猫团队还构建了一套多阶段数据处理流程,包括离线标注和在线验证,并专门增加了多人数据、静默数据和情绪数据三类增强数据,以应对虚拟人生成的典型难点。
此外,通过逐帧级的 GRPO(Group Relative Policy Optimization)偏好对齐,模型针对手部稳定性和动作连续性进行优化,缓解了手部畸变和动作不连贯等问题。