# 京东开源 JoyAI-Echo 长音视频生成框架，支持对话式编辑与 5 分钟角色一致

- 来源：IT之家（RSS）
- 发布时间：2026-06-03 22:34
- AIHOT 分数：67
- AIHOT 链接：https://aihot.virxact.com/items/cmpy7dhvm02goslaxelgiwqws
- 原文链接：https://www.ithome.com/0/959/566.htm

## AI 摘要

京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程，结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation（DMD）技术，DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent，支持自然语言需求自动拆分为剧本、角色、场景和镜头，实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。

## 正文

IT之家 6 月 3 日消息，京东今日宣布推出 JoyAI-Echo 长音视频生成框架，号称直接解决行业头疼已久的三大难题 —— 角色易崩、声音乱变、生成缓慢。同时还实现了“对话式编辑”功能，不用再为改一个镜头重跑整条视频。

京东官方表示，JoyAI-Echo 的发布，标志着京东在长视频生成领域进入全球第一梯队。

据介绍，JoyAI-Echo 框架内置了一个专门的记忆库，能在多镜头生成过程中，持续保存并调用角色的外观特征和说话人音色信息。实测结果显示，长达 5 分钟的视频里，角色身份、视觉形象和声音音色都能保持高度一致，再也不会出现“同一个人演着演着变成另一个人”的尴尬情况。

团队提出了记忆驱动后训练流程，结合 SFT、跨模态 RLHF 和 Distribution Matching Distillation（DMD）技术，不仅提升了生成质量，还实现了推理加速，DMD 一项技术就带来约 7.5 倍的速度提升。JoyAI-Echo 还加入了智能“导演助理”——Director Agent，支持自然语言说需求，自动拆分成剧本、角色、场景和镜头。

另外，JoyAI-Echo 还配套了专门的实时超分模块，通过单步超分就能生成高分辨率视频和精细化音频，并支持两档分辨率提升：736×1280 → 1152×1920 和 736×1280 → 1472×2560。

IT之家附项目页和 GitHub 代码仓库如下：

GitHub：https://github.com/jd-opensource/JoyAI-Echo

项目主页：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/