阿里千问开源Qwen3-TTS全家桶：支持10种语言、音色克隆与控制，首包音频低至97ms

2026-01-23 16:14:27 | 嫣然 | 1432

1月23日，据报道，阿里旗下AI模型品牌千问今日宣布，其Qwen3-TTS系列语音生成模型现已全面开源，包含1.7B和0.6B两种参数规模，支持包括中文、英文、日语、韩语等在内的10种主流语言及多种方言。该系列模型具备音色克隆、音色创造、拟人化语音生成以及自然语言指令控制等完整功能，旨在为开发者和企业提供全面、高效的语音合成解决方案。

技术架构上，Qwen3-TTS采用自研的“Qwen3-TTS-Tokenizer-12Hz”多码本语音编码器，实现对语音信号的高效压缩与强表征，在保留副语言信息与声学环境特征的同时，通过轻量化的非DiT结构实现高保真还原。模型采用Dual-Track双轨混合流式生成架构，兼容流式与非流式生成，最快可在输入单个字符后立即输出音频首包，端到端合成延迟低至97毫秒，适用于实时交互场景。

Qwen3-TTS还深度融合文本语义理解能力，能够根据自然语言指令灵活调节音色、情感、韵律等多维声学属性，并自适应调整语气与节奏，实现“所想即所听”的拟人化表达。在音色克隆、创造与控制等多项评测中，该系列模型在指令遵循、生成表现力、跨语种相似度等指标上均达到或超越当前行业先进水平。

根据官方性能报告，在音色创造任务中，Qwen3-TTS在指令遵循与表现力上整体超越部分闭源模型；在音色克隆方面，其中英文克隆稳定性及跨语种相似度表现领先；其Tokenizer在语音重构质量、可懂度与说话人相似度等关键指标上也展现出行业领先的还原能力。

目前，Qwen3-TTS系列模型已在GitHub开源，并提供API接口供开发者体验。此次开源标志着阿里在语音生成领域进一步开放其技术积累，推动语音合成技术在多语言、高表现力、低延迟方向的应用普及。在AIGC技术快速落地的背景下，全功能、高性能的开源TTS模型或将为语音交互、内容创作、无障碍服务等场景提供更丰富的技术选择。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。