阿里通义开源影视级配音模型Fun-CineForge,用“时间模态”攻克音画同步难题
3月16日,阿里通义实验室宣布发布并开源首个支持影视级多场景配音的多模态大模型Fun-CineForge,并配套开放了高质量数据集的构建方法。通过“数据+模型”的一体化设计,该模型旨在解决影视级AI配音长期面临的音画同步与情感表达等关键问题。
在真实影视制作中,一段高质量配音需同时满足四大要求:口型需与画面唇部运动高度同步;情绪表达需依赖角色面部形象和指令实现拟人化呈现;在多角色场景下需保持每个角色音色一致;即便说话人被遮挡或不在画面中,语音也必须在正确的时间区间内合成。
现有AI配音方法普遍面临两大瓶颈。一是高质量多模态数据集稀缺,现有数据集数据量小、标注类型有限,且高度依赖人工标注,难以大规模生产。二是传统配音模型仅依赖唇部区域学习音画同步,面对多人对话、镜头切换、面部遮挡等复杂场景时力不从心。
Fun-CineForge的核心创新在于在配音模型中首次引入“时间模态”。传统TTS模型通常只关注文本、声音或视觉信息,但影视配音中还有一个关键维度:时间——何时开始说话、何时结束、哪个角色在哪个时间段说话。时间模态作为一种强监督目标,使语音出现在该出现的时间区域,让模型具备了在复杂场景下的配音能力。
模型同时利用四类互补信息:视觉模态学习唇部运动、理解面部表情;文本模态提供台词内容、角色属性和情感语气;音频模态作为模型预测目标;时间模态控制语音出现时间、指示说话人身份。
Fun-CineForge构建了一套自动化的数据集生产流程CineDub,可将原始影视素材转化为结构化多模态数据。该流程包括人声分离、文本转录、音视频联合说话人分离等,其中基于通用大模型思维链的双向矫正机制,使中文字错率从4.53%降至0.94%,英文词错率从9.35%降至2.12%,说话人分离错误率从8.38%降至1.20%。
数据集覆盖独白、旁白、对话、多说话人等多种场景,每条数据都包含转录台词、帧级人脸唇部数据、角色属性情感线索、毫秒级时间戳及干净人声轨道。
实验结果显示,Fun-CineForge在语音自然度、字错率、情感表达、音色相似度、唇形同步、时间对齐能力、指令遵循等指标上均优于现有开源配音模型。其中,独白和旁白等单人场景效果最佳,中文字错率仅1.49%和1.90%,并首次支持双人对话与多人对话场景,实现准确的时间对齐、音画同步与音色一致。
目前,Fun-CineForge已在GitHub、HuggingFace、ModelScope三大平台同步开源。项目官网提供独白、旁白、对话、多说话人、音色克隆、指令控制等丰富示例,涵盖情绪化表达、镜头切换、面部遮挡等各种复杂情景。当前模型支持30秒以内的视频片段推理,为音频大模型技术在专业配音制作领域提供了新的技术方案。