# LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

- 来源：美团 LongCat：HuggingFace 新模型
- 发布时间：2026-05-21 17:05
- AIHOT 分数：73
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpfoox6408bdsljwnbdhvasf
- 原文链接：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

## 精选理由

美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

## AI 摘要

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

## 正文

该来源未收录可展示正文，站内仅提供摘要。
