B站开源语音生成大模型IndexTTS-2.0:全球首个支持精准时长控制的自回归TTS系统
9月9日,据报道,B站(Bilibili)于9月8日正式宣布开源其自研语音生成大模型 IndexTTS-2.0。该系统被官方称为全球首个支持精确时长控制的自回归零样本文本转语音(TTS)模型,特别适用于视频配音、有声内容创作等对音画同步要求极高的场景。
相比传统逐 token 生成的 TTS 系统,IndexTTS-2.0 在自回归架构中实现了突破性的时长控制能力。该模型支持两种生成模式:一种可精确指定生成的 token 数量以实现毫秒级语音时长控制;另一种则保留输入提示的韵律特征进行自由生成,为用户提供灵活的生成选择。
在声音表达方面,IndexTTS-2.0 实现了情感与说话人音色的解耦控制。用户可分别指定音色来源和情感来源,例如使用一段音频提取说话人音色,同时结合另一段不同情感的音频或文本描述来塑造语音情绪,真正实现零样本条件下的高保真语音合成。
为提升合成语音在强情感表达下的清晰度,研发团队引入了GPT潜在表示,并采用三阶段训练策略增强模型稳定性。此外,基于Qwen3微调实现的“软指令”机制,允许用户通过自然语言直观控制情绪表达,大幅降低使用门槛。
多数据集测试表明,IndexTTS-2.0在词错率、说话人相似度与情感还原度等多个指标上均超越当前主流零样本TTS模型。B站表示,此次开源包括完整代码和预训练权重,旨在推动语音合成技术的学术研究与产业应用创新。