中国京东开源JoyAI-Echo长音视频生成框架

2026-06-04 09:27

关键词:

维度网讯，6月3日，京东推出JoyAI-Echo长音视频生成框架，代码与权重已全部开源。该框架面向长音视频生成场景，引入智能“导演助理”Director Agent，并配置跨模态音视频记忆库，用于在多镜头生成过程中持续保存并调用角色外观特征和说话人音色信息。

JoyAI-Echo切入的是长视频生成中长期存在的稳定性问题。当前视频生成模型在短片段、单镜头、单角色场景中已经具备较强表现，但一旦进入多镜头叙事、角色连续出场、人物对话和长时长内容生成，模型容易出现角色外观漂移、音色前后不一致、镜头逻辑割裂和生成速度过慢等问题。JoyAI-Echo通过跨模态音视频记忆库记录角色身份、视觉形象和声音上下文，使后续镜头能够继续沿用前序信息;Director Agent则承担剧本、角色和镜头拆解功能，让用户可以通过自然语言提出创作和修改需求，减少长视频生成过程中反复重跑整条内容的成本。

京东开源仓库显示，JoyAI-Echo支持分钟级多镜头音视频生成，可通过一个提示词JSON生成连贯故事，并使用DMD蒸馏少步推理方案提升生成速度。

这套框架的意义在于把长音视频生成从“单次生成结果”推进到“可持续编辑的创作流程”。在影视前期预演、品牌营销视频、数字人内容、虚拟故事创作和直播短剧等场景中，创作者需要的不只是生成一个画面，而是让角色在多段剧情中保持统一形象、统一声音和统一叙事风格。JoyAI-Echo把音频、视频、角色记忆、镜头规划和对话式编辑整合到同一框架中，有助于降低长内容生产的技术门槛。代码与权重全部开源后，开发者也可以基于该框架进行二次开发、模型评测和垂直场景改造，进一步推动国内长音视频生成生态扩展。

后续变量集中在开源社区适配情况、实际部署成本、长视频一致性表现、交互式编辑体验和商业场景落地速度。随着AI视频生成从短片段演示进入更复杂的内容生产环节，角色记忆、声音一致性、镜头连续性和可编辑性将成为模型框架竞争的重要指标。JoyAI-Echo的开源，将为长音视频生成领域提供一个可复现、可扩展的技术入口。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国