美团开源LongCat-Video-Avatar 1.5:10秒数字人视频生成仅需1分钟

2026-05-22 16:58:45   |   棠糖   |   1354

5月22日,美团技术团队今日正式开源了数字人视频生成模型LongCat-Video-Avatar 1.5。官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在1.0基础上完成全面升级,定位从“开源SOTA”走向“商业级应用”。

在基础体验方面,该版本能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。推理部署方面,LongCat-Video-Avatar 1.5采用DMD蒸馏技术,将生成步数从50步压缩至8步,推理效率提升约15倍,生成一段10秒视频仅需约1分钟。

技术架构上,1.5版本主要在三方面升级:将音频特征提取编码器从Wav2Vec2升级为Whisper-large,提升唇形同步与全身时序稳定性;构建多阶段数据处理流程,增加多人数据、静默数据和情绪数据三类增强数据;通过逐帧级GRPO偏好对齐,优化手部稳定性和动作连续性。性能评测方面,基于EvalTalker的综合基准显示,该模型在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上处于领先水平。用户偏好对比中,该模型相比Kling Avatar 2.0胜率为65.9%,相比OmniHuman-1.5胜率为61.1%,相比HeyGen胜率为54.3%。在多人场景中得分大幅领先,主体变形问题率仅为23.1%,跳帧问题率低至0.8%。美团表示,希望此次开源能成为可验证、可改进、可共建的技术基座,让开发者和创作者探索更多应用边界。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

美团开源LongCat-Video-Avatar 1.5:10秒数字人视频生成仅需1分钟

2026-05-22 16:58:45 浏览量: 1354 作者: 棠糖

5月22日,美团技术团队今日正式开源了数字人视频生成模型LongCat-Video-Avatar 1.5。官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在1.0基础上完成全面升级,定位从“开源SOTA”走向“商业级应用”。

在基础体验方面,该版本能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。推理部署方面,LongCat-Video-Avatar 1.5采用DMD蒸馏技术,将生成步数从50步压缩至8步,推理效率提升约15倍,生成一段10秒视频仅需约1分钟。

技术架构上,1.5版本主要在三方面升级:将音频特征提取编码器从Wav2Vec2升级为Whisper-large,提升唇形同步与全身时序稳定性;构建多阶段数据处理流程,增加多人数据、静默数据和情绪数据三类增强数据;通过逐帧级GRPO偏好对齐,优化手部稳定性和动作连续性。性能评测方面,基于EvalTalker的综合基准显示,该模型在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上处于领先水平。用户偏好对比中,该模型相比Kling Avatar 2.0胜率为65.9%,相比OmniHuman-1.5胜率为61.1%,相比HeyGen胜率为54.3%。在多人场景中得分大幅领先,主体变形问题率仅为23.1%,跳帧问题率低至0.8%。美团表示,希望此次开源能成为可验证、可改进、可共建的技术基座,让开发者和创作者探索更多应用边界。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号