美团开源LongCat-Video-Avatar 1.5：10秒数字人视频生成仅需1分钟

2026-05-22 16:58:45 | 棠糖 | 1368

5月22日，美团技术团队今日正式开源了数字人视频生成模型LongCat-Video-Avatar 1.5。官方介绍称，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现升级，旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在1.0基础上完成全面升级，定位从“开源SOTA”走向“商业级应用”。

在基础体验方面，该版本能够应对长句、快语速、歌唱等复杂语音输入，使唇部运动更精准平滑，同时面部表情、头部姿态与肢体动作也更为协调。场景支持方面，借助高质量数据体系，模型可稳定处理真人、动漫、动物等多种主体，并在多人对话场景中自然区分说话者与聆听者。推理部署方面，LongCat-Video-Avatar 1.5采用DMD蒸馏技术，将生成步数从50步压缩至8步，推理效率提升约15倍，生成一段10秒视频仅需约1分钟。

技术架构上，1.5版本主要在三方面升级：将音频特征提取编码器从Wav2Vec2升级为Whisper-large，提升唇形同步与全身时序稳定性；构建多阶段数据处理流程，增加多人数据、静默数据和情绪数据三类增强数据；通过逐帧级GRPO偏好对齐，优化手部稳定性和动作连续性。性能评测方面，基于EvalTalker的综合基准显示，该模型在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上处于领先水平。用户偏好对比中，该模型相比Kling Avatar 2.0胜率为65.9%，相比OmniHuman-1.5胜率为61.1%，相比HeyGen胜率为54.3%。在多人场景中得分大幅领先，主体变形问题率仅为23.1%，跳帧问题率低至0.8%。美团表示，希望此次开源能成为可验证、可改进、可共建的技术基座，让开发者和创作者探索更多应用边界。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。