karminski-牙医@karminski3

2026-05-25 11:01·39天前

AI 摘要

美团发布数字人模型LongCat-Video-avatar-1.5，可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距，主要在口型。最大分辨率720p，但可AI提升至4K。模型本地部署可行，对动漫人物泛化，但体积大，int8量化需16G显存。

数字人模型本地都能跑了吗？

美团刚发了个数字人模型 LongCat-Video-avatar-1.5，只要给到图片和音频，就能生成口播，我给大家录了一段实测.

目前 HuggingFace Space 上的 demo 只能生成5s的视频，所以我是录了两段480p的拼接起来的.

我特意挑选了一个很困难的case，大家可以看到这个人物嘴部有遮挡. 实际效果来看虽然距离SOTA级别的模型有差距，主要还是口型，以及输出最大只支持720p. 不过720p这个也比较好解决，大家可以看到我视频中演示的这个清晰度是可以的，我是直接用了AI提升分辨率到4K重绘了一下.

这个模型作为本地部署方案还是可以的，尤其是动漫人物也能泛化.

另外模型略大， int8量化也有16G，需要用一个好一点的显卡.

#longcat #数字人模型 #数字人

karminski-牙医@karminski3 · X