京东推出JoyAI-Echo长音视频生成框架,宣称进入全球第一梯队
6月4日,京东正式发布JoyAI-Echo长音视频生成框架,该技术旨在解决当前视频生成领域长期存在的三大痛点——角色形象易崩坏、声音音色不连贯以及生成速度缓慢。与此同时,框架还实现了“对话式编辑”功能,用户无需为了修改一个镜头而重新生成整条视频。京东官方表示,JoyAI-Echo的发布标志着京东在长视频生成领域已进入全球第一梯队。
据介绍,JoyAI-Echo框架内置了一个专门的记忆库,能够在多镜头生成过程中持续保存并调用角色的外观特征和说话人音色信息。实测结果显示,在长达5分钟的视频中,角色的身份、视觉形象和声音音色均能保持高度一致,有效避免了“同一个人演着演着变成另一个人”的尴尬情况。这一突破得益于团队提出的记忆驱动后训练流程,结合了SFT、跨模态RLHF以及分布匹配蒸馏(DMD)等技术。这些技术不仅提升了生成质量,还显著加速了推理过程,其中仅DMD一项技术就带来了约7.5倍的速度提升。
此外,JoyAI-Echo还加入了智能“导演助理”——Director Agent。用户只需用自然语言描述需求,系统便可自动将其拆解为剧本、角色、场景和镜头等具体要素,大幅降低了视频制作的门槛。在画质方面,框架配套了专门的实时超分模块,通过单步超分即可生成高分辨率视频和精细化音频,支持两档分辨率提升:从736×1280提升至1152×1920,或进一步升级至1472×2560。
业内人士认为,京东此次在AI视频生成领域的布局,不仅展现了其在多模态技术上的积累,也为内容创作者提供了一套更加高效、连贯且易于操控的创作工具。