阿里通义推出两款TTS新模型：支持音色定制与多语种克隆

2025-12-25 11:20:46 | 棠糖 | 1037

12月25日，据报道，阿里通义宣布在其Qwen3-TTS模型家族中新增两款产品——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。这两款模型在音色控制、多语种支持与文本鲁棒性等方面实现突破，旨在为用户提供更灵活、更精准的语音生成体验。

音色创造模型Qwen3-TTS-VD-Flash支持通过复杂的自然语言指令对音色、韵律、情感及角色设定进行精细化调控。用户可通过描述声学属性、人设背景等信息自由定义声音形象，实现对“如何说”的全面控制。官方测试显示，其在InstructTTS-Eval综合表现优于GPT-4o-mini-tts等竞品，角色扮演能力也超过Gemini-2.5-pro-preview-tts。

音色克隆模型Qwen3-TTS-VC-Flash则支持仅需3秒左右的音频样本即可完成音色克隆，并基于克隆音色生成包括中文、英语、日语、法语等在内的10种主流语言语音。在MiniMax多语种测试集上，其平均词错误率表现优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

两款模型均具备高表现力的拟人化音色生成能力，能根据文本语义自动调节语气节奏，实现自然生动的表达。同时，模型对复杂文本结构与多样化格式展现出较强的鲁棒性，能够稳定处理非规范化输入，保持生成语音的准确性与连贯性。

随着AI语音技术在内容创作、虚拟助手、有声读物等场景的深入应用，对音色个性化与多语种适配的需求日益增长。阿里通义此次推出的两款模型，通过音色定制与快速克隆能力的结合，为开发者和企业用户提供了更高效的语音合成解决方案。模型的开放使用有望进一步降低高质量语音生成的技术门槛，推动个性化语音交互应用的普及。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。