阿里千问开源Qwen3-TTS全家桶:支持10种语言、音色克隆与控制,首包音频低至97ms
1月23日,据报道,阿里旗下AI模型品牌千问今日宣布,其Qwen3-TTS系列语音生成模型现已全面开源,包含1.7B和0.6B两种参数规模,支持包括中文、英文、日语、韩语等在内的10种主流语言及多种方言。该系列模型具备音色克隆、音色创造、拟人化语音生成以及自然语言指令控制等完整功能,旨在为开发者和企业提供全面、高效的语音合成解决方案。
技术架构上,Qwen3-TTS采用自研的“Qwen3-TTS-Tokenizer-12Hz”多码本语音编码器,实现对语音信号的高效压缩与强表征,在保留副语言信息与声学环境特征的同时,通过轻量化的非DiT结构实现高保真还原。模型采用Dual-Track双轨混合流式生成架构,兼容流式与非流式生成,最快可在输入单个字符后立即输出音频首包,端到端合成延迟低至97毫秒,适用于实时交互场景。
Qwen3-TTS还深度融合文本语义理解能力,能够根据自然语言指令灵活调节音色、情感、韵律等多维声学属性,并自适应调整语气与节奏,实现“所想即所听”的拟人化表达。在音色克隆、创造与控制等多项评测中,该系列模型在指令遵循、生成表现力、跨语种相似度等指标上均达到或超越当前行业先进水平。
根据官方性能报告,在音色创造任务中,Qwen3-TTS在指令遵循与表现力上整体超越部分闭源模型;在音色克隆方面,其中英文克隆稳定性及跨语种相似度表现领先;其Tokenizer在语音重构质量、可懂度与说话人相似度等关键指标上也展现出行业领先的还原能力。
目前,Qwen3-TTS系列模型已在GitHub开源,并提供API接口供开发者体验。此次开源标志着阿里在语音生成领域进一步开放其技术积累,推动语音合成技术在多语言、高表现力、低延迟方向的应用普及。在AIGC技术快速落地的背景下,全功能、高性能的开源TTS模型或将为语音交互、内容创作、无障碍服务等场景提供更丰富的技术选择。