# 数字人模型本地都能跑了吗？

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-25 11:01
- AIHOT 分数：58
- AIHOT 链接：https://aihot.virxact.com/items/cmpkmykiu08eesl01aook9qft
- 原文链接：https://x.com/karminski3/status/2058745232058106207

## AI 摘要

美团发布数字人模型LongCat-Video-avatar-1.5，可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距，主要在口型。最大分辨率720p，但可AI提升至4K。模型本地部署可行，对动漫人物泛化，但体积大，int8量化需16G显存。

## 正文

数字人模型本地都能跑了吗？

美团刚发了个数字人模型 LongCat-Video-avatar-1.5， 只要给到图片和音频， 就能生成口播， 我给大家录了一段实测.

目前 HuggingFace Space 上的 demo 只能生成5s的视频， 所以我是录了两段480p的拼接起来的.

我特意挑选了一个很困难的case， 大家可以看到这个人物嘴部有遮挡. 实际效果来看虽然距离SOTA级别的模型有差距， 主要还是口型， 以及输出最大只支持720p. 不过720p这个也比较好解决， 大家可以看到我视频中演示的这个清晰度是可以的， 我是直接用了AI提升分辨率到4K重绘了一下.

这个模型作为本地部署方案还是可以的， 尤其是动漫人物也能泛化.

另外模型略大， int8量化也有16G， 需要用一个好一点的显卡.

#longcat #数字人模型 #数字人
