美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。
数字人模型本地都能跑了吗?
美团刚发了个数字人模型 LongCat-Video-avatar-1.5, 只要给到图片和音频, 就能生成口播, 我给大家录了一段实测.
目前 HuggingFace Space 上的 demo 只能生成5s的视频, 所以我是录了两段480p的拼接起来的.
我特意挑选了一个很困难的case, 大家可以看到这个人物嘴部有遮挡. 实际效果来看虽然距离SOTA级别的模型有差距, 主要还是口型, 以及输出最大只支持720p. 不过720p这个也比较好解决, 大家可以看到我视频中演示的这个清晰度是可以的, 我是直接用了AI提升分辨率到4K重绘了一下.
这个模型作为本地部署方案还是可以的, 尤其是动漫人物也能泛化.
另外模型略大, int8量化也有16G, 需要用一个好一点的显卡.
#longcat #数字人模型 #数字人