美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

2026-05-22 14:24·41天前

AI 摘要

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级，支持复杂语音输入与多种主体。通过 DMD 蒸馏技术，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在性能评测中，模型在四个关键维度表现领先，用户偏好对比中胜率均超 54%，旨在推动数字人视频从技术演示走向商业应用。

原文

IT之家 5 月 22 日消息，美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。

官方介绍称，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级，旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级，定位从“开源 SOTA”走向“商业级应用”。

据介绍，这一版本在基础体验上进行了强化，能够应对长句、快语速、歌唱等复杂语音输入，使唇部运动更精准平滑，同时面部表情、头部姿态与肢体动作也更为协调。

在场景支持方面，借助高质量数据体系，模型可稳定处理真人、动漫、动物等多种主体，并在多人对话场景中自然区分说话者与聆听者。

推理部署方面，LongCat-Video-Avatar 1.5 采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成一段 10 秒视频仅需约 1 分钟。

从技术架构来看，1.5 版本主要在三方面实现升级。首先是基础体验的商用化，模型将音频特征提取编码器从 Wav2Vec2 升级为 Whisper-large，凭借更大的参数量和更丰富的多语言先验，能够更细致地捕捉音素变化与发音节奏，从而提升唇形同步与全身时序稳定性，减少长视频中的抖动、跳帧和身份漂移。

龙猫团队还构建了一套多阶段数据处理流程，包括离线标注和在线验证，并专门增加了多人数据、静默数据和情绪数据三类增强数据，以应对虚拟人生成的典型难点。

此外，通过逐帧级的 GRPO（Group Relative Policy Optimization）偏好对齐，模型针对手部稳定性和动作连续性进行优化，缓解了手部畸变和动作不连贯等问题。

在性能评测方面，美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。由 770 名评估者完成的 13,240 条主观评分及 10 名专家的结构化分析显示，在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上，LongCat-Video-Avatar 1.5 的雷达图面积处于领先水平。

用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。

在多人场景中，其得分大幅领先 InfiniteTalk；主体变形问题率仅为 23.1%，跳帧问题率低至 0.8%，均优于对比模型。

美团方面表示，数字人视频生成正在从展示效果走向真实使用，希望此次开源能成为一个可验证、可改进、可共建的技术基座，让开发者和创作者基于此探索更多应用边界。

开源链接：

Github：https://github.com/meituan-longcat/LongCat-Video

HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

Tech Report：https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf

Project Page：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/

Modelscope：https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

IT之家（RSS）

70导出 Markdown