美团开源LongCat-Video-Avatar 1.5:10秒数字人视频生成仅需1分钟
5月22日,美团技术团队今日正式开源了数字人视频生成模型LongCat-Video-Avatar 1.5。官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在1.0基础上完成全面升级,定位从“开源SOTA”走向“商业级应用”。
在基础体验方面,该版本能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。推理部署方面,LongCat-Video-Avatar 1.5采用DMD蒸馏技术,将生成步数从50步压缩至8步,推理效率提升约15倍,生成一段10秒视频仅需约1分钟。
技术架构上,1.5版本主要在三方面升级:将音频特征提取编码器从Wav2Vec2升级为Whisper-large,提升唇形同步与全身时序稳定性;构建多阶段数据处理流程,增加多人数据、静默数据和情绪数据三类增强数据;通过逐帧级GRPO偏好对齐,优化手部稳定性和动作连续性。性能评测方面,基于EvalTalker的综合基准显示,该模型在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上处于领先水平。用户偏好对比中,该模型相比Kling Avatar 2.0胜率为65.9%,相比OmniHuman-1.5胜率为61.1%,相比HeyGen胜率为54.3%。在多人场景中得分大幅领先,主体变形问题率仅为23.1%,跳帧问题率低至0.8%。美团表示,希望此次开源能成为可验证、可改进、可共建的技术基座,让开发者和创作者探索更多应用边界。