阿里千问开源Qwen3-TTS全家桶:支持10种语言、音色克隆与控制,首包音频低至97ms

2026-01-23 16:14:27   |   嫣然   |   1422

1月23日,据报道,阿里旗下AI模型品牌千问今日宣布,其Qwen3-TTS系列语音生成模型现已全面开源,包含1.7B和0.6B两种参数规模,支持包括中文、英文、日语、韩语等在内的10种主流语言及多种方言。该系列模型具备音色克隆、音色创造、拟人化语音生成以及自然语言指令控制等完整功能,旨在为开发者和企业提供全面、高效的语音合成解决方案。

技术架构上,Qwen3-TTS采用自研的“Qwen3-TTS-Tokenizer-12Hz”多码本语音编码器,实现对语音信号的高效压缩与强表征,在保留副语言信息与声学环境特征的同时,通过轻量化的非DiT结构实现高保真还原。模型采用Dual-Track双轨混合流式生成架构,兼容流式与非流式生成,最快可在输入单个字符后立即输出音频首包,端到端合成延迟低至97毫秒,适用于实时交互场景。

Qwen3-TTS还深度融合文本语义理解能力,能够根据自然语言指令灵活调节音色、情感、韵律等多维声学属性,并自适应调整语气与节奏,实现“所想即所听”的拟人化表达。在音色克隆、创造与控制等多项评测中,该系列模型在指令遵循、生成表现力、跨语种相似度等指标上均达到或超越当前行业先进水平。

根据官方性能报告,在音色创造任务中,Qwen3-TTS在指令遵循与表现力上整体超越部分闭源模型;在音色克隆方面,其中英文克隆稳定性及跨语种相似度表现领先;其Tokenizer在语音重构质量、可懂度与说话人相似度等关键指标上也展现出行业领先的还原能力。

目前,Qwen3-TTS系列模型已在GitHub开源,并提供API接口供开发者体验。此次开源标志着阿里在语音生成领域进一步开放其技术积累,推动语音合成技术在多语言、高表现力、低延迟方向的应用普及。在AIGC技术快速落地的背景下,全功能、高性能的开源TTS模型或将为语音交互、内容创作、无障碍服务等场景提供更丰富的技术选择。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里千问开源Qwen3-TTS全家桶:支持10种语言、音色克隆与控制,首包音频低至97ms

2026-01-23 16:14:27 浏览量: 1422 作者: 嫣然

1月23日,据报道,阿里旗下AI模型品牌千问今日宣布,其Qwen3-TTS系列语音生成模型现已全面开源,包含1.7B和0.6B两种参数规模,支持包括中文、英文、日语、韩语等在内的10种主流语言及多种方言。该系列模型具备音色克隆、音色创造、拟人化语音生成以及自然语言指令控制等完整功能,旨在为开发者和企业提供全面、高效的语音合成解决方案。

技术架构上,Qwen3-TTS采用自研的“Qwen3-TTS-Tokenizer-12Hz”多码本语音编码器,实现对语音信号的高效压缩与强表征,在保留副语言信息与声学环境特征的同时,通过轻量化的非DiT结构实现高保真还原。模型采用Dual-Track双轨混合流式生成架构,兼容流式与非流式生成,最快可在输入单个字符后立即输出音频首包,端到端合成延迟低至97毫秒,适用于实时交互场景。

Qwen3-TTS还深度融合文本语义理解能力,能够根据自然语言指令灵活调节音色、情感、韵律等多维声学属性,并自适应调整语气与节奏,实现“所想即所听”的拟人化表达。在音色克隆、创造与控制等多项评测中,该系列模型在指令遵循、生成表现力、跨语种相似度等指标上均达到或超越当前行业先进水平。

根据官方性能报告,在音色创造任务中,Qwen3-TTS在指令遵循与表现力上整体超越部分闭源模型;在音色克隆方面,其中英文克隆稳定性及跨语种相似度表现领先;其Tokenizer在语音重构质量、可懂度与说话人相似度等关键指标上也展现出行业领先的还原能力。

目前,Qwen3-TTS系列模型已在GitHub开源,并提供API接口供开发者体验。此次开源标志着阿里在语音生成领域进一步开放其技术积累,推动语音合成技术在多语言、高表现力、低延迟方向的应用普及。在AIGC技术快速落地的背景下,全功能、高性能的开源TTS模型或将为语音交互、内容创作、无障碍服务等场景提供更丰富的技术选择。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号