公众号:京东JoyAI
京东开源JoyAI-Echo长音视频生成框架
精选理由
长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
AI 摘要
6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com