阿里通义推出两款TTS新模型:支持音色定制与多语种克隆
12月25日,据报道,阿里通义宣布在其Qwen3-TTS模型家族中新增两款产品——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。这两款模型在音色控制、多语种支持与文本鲁棒性等方面实现突破,旨在为用户提供更灵活、更精准的语音生成体验。
音色创造模型Qwen3-TTS-VD-Flash支持通过复杂的自然语言指令对音色、韵律、情感及角色设定进行精细化调控。用户可通过描述声学属性、人设背景等信息自由定义声音形象,实现对“如何说”的全面控制。官方测试显示,其在InstructTTS-Eval综合表现优于GPT-4o-mini-tts等竞品,角色扮演能力也超过Gemini-2.5-pro-preview-tts。
音色克隆模型Qwen3-TTS-VC-Flash则支持仅需3秒左右的音频样本即可完成音色克隆,并基于克隆音色生成包括中文、英语、日语、法语等在内的10种主流语言语音。在MiniMax多语种测试集上,其平均词错误率表现优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。
两款模型均具备高表现力的拟人化音色生成能力,能根据文本语义自动调节语气节奏,实现自然生动的表达。同时,模型对复杂文本结构与多样化格式展现出较强的鲁棒性,能够稳定处理非规范化输入,保持生成语音的准确性与连贯性。
随着AI语音技术在内容创作、虚拟助手、有声读物等场景的深入应用,对音色个性化与多语种适配的需求日益增长。阿里通义此次推出的两款模型,通过音色定制与快速克隆能力的结合,为开发者和企业用户提供了更高效的语音合成解决方案。模型的开放使用有望进一步降低高质量语音生成的技术门槛,推动个性化语音交互应用的普及。