LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

2026-05-21 17:05·42天前

精选理由

美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

AI 摘要

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

该来源未收录可展示正文，站内仅提供摘要。

美团 LongCat：HuggingFace 新模型

精选73导出 Markdown

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

2026-05-21 17:05·42天前

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文huggingface.co

Hugging Face 图像生成多模态开源/仓库