京东推出JoyAI-Echo长音视频生成框架，宣称进入全球第一梯队

2026-06-04 18:43:50 | 探索者 | 1276

6月4日，京东正式发布JoyAI-Echo长音视频生成框架，该技术旨在解决当前视频生成领域长期存在的三大痛点——角色形象易崩坏、声音音色不连贯以及生成速度缓慢。与此同时，框架还实现了“对话式编辑”功能，用户无需为了修改一个镜头而重新生成整条视频。京东官方表示，JoyAI-Echo的发布标志着京东在长视频生成领域已进入全球第一梯队。

据介绍，JoyAI-Echo框架内置了一个专门的记忆库，能够在多镜头生成过程中持续保存并调用角色的外观特征和说话人音色信息。实测结果显示，在长达5分钟的视频中，角色的身份、视觉形象和声音音色均能保持高度一致，有效避免了“同一个人演着演着变成另一个人”的尴尬情况。这一突破得益于团队提出的记忆驱动后训练流程，结合了SFT、跨模态RLHF以及分布匹配蒸馏（DMD）等技术。这些技术不仅提升了生成质量，还显著加速了推理过程，其中仅DMD一项技术就带来了约7.5倍的速度提升。

此外，JoyAI-Echo还加入了智能“导演助理”——Director Agent。用户只需用自然语言描述需求，系统便可自动将其拆解为剧本、角色、场景和镜头等具体要素，大幅降低了视频制作的门槛。在画质方面，框架配套了专门的实时超分模块，通过单步超分即可生成高分辨率视频和精细化音频，支持两档分辨率提升：从736×1280提升至1152×1920，或进一步升级至1472×2560。

业内人士认为，京东此次在AI视频生成领域的布局，不仅展现了其在多模态技术上的积累，也为内容创作者提供了一套更加高效、连贯且易于操控的创作工具。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。