阿里通义推出两款TTS新模型:支持音色定制与多语种克隆

2025-12-25 11:20:46   |   棠糖   |   1021

12月25日,据报道,阿里通义宣布在其Qwen3-TTS模型家族中新增两款产品——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。这两款模型在音色控制、多语种支持与文本鲁棒性等方面实现突破,旨在为用户提供更灵活、更精准的语音生成体验。

音色创造模型Qwen3-TTS-VD-Flash支持通过复杂的自然语言指令对音色、韵律、情感及角色设定进行精细化调控。用户可通过描述声学属性、人设背景等信息自由定义声音形象,实现对“如何说”的全面控制。官方测试显示,其在InstructTTS-Eval综合表现优于GPT-4o-mini-tts等竞品,角色扮演能力也超过Gemini-2.5-pro-preview-tts。

音色克隆模型Qwen3-TTS-VC-Flash则支持仅需3秒左右的音频样本即可完成音色克隆,并基于克隆音色生成包括中文、英语、日语、法语等在内的10种主流语言语音。在MiniMax多语种测试集上,其平均词错误率表现优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

两款模型均具备高表现力的拟人化音色生成能力,能根据文本语义自动调节语气节奏,实现自然生动的表达。同时,模型对复杂文本结构与多样化格式展现出较强的鲁棒性,能够稳定处理非规范化输入,保持生成语音的准确性与连贯性。

随着AI语音技术在内容创作、虚拟助手、有声读物等场景的深入应用,对音色个性化与多语种适配的需求日益增长。阿里通义此次推出的两款模型,通过音色定制与快速克隆能力的结合,为开发者和企业用户提供了更高效的语音合成解决方案。模型的开放使用有望进一步降低高质量语音生成的技术门槛,推动个性化语音交互应用的普及。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里通义推出两款TTS新模型:支持音色定制与多语种克隆

2025-12-25 11:20:46 浏览量: 1021 作者: 棠糖

12月25日,据报道,阿里通义宣布在其Qwen3-TTS模型家族中新增两款产品——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。这两款模型在音色控制、多语种支持与文本鲁棒性等方面实现突破,旨在为用户提供更灵活、更精准的语音生成体验。

音色创造模型Qwen3-TTS-VD-Flash支持通过复杂的自然语言指令对音色、韵律、情感及角色设定进行精细化调控。用户可通过描述声学属性、人设背景等信息自由定义声音形象,实现对“如何说”的全面控制。官方测试显示,其在InstructTTS-Eval综合表现优于GPT-4o-mini-tts等竞品,角色扮演能力也超过Gemini-2.5-pro-preview-tts。

音色克隆模型Qwen3-TTS-VC-Flash则支持仅需3秒左右的音频样本即可完成音色克隆,并基于克隆音色生成包括中文、英语、日语、法语等在内的10种主流语言语音。在MiniMax多语种测试集上,其平均词错误率表现优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

两款模型均具备高表现力的拟人化音色生成能力,能根据文本语义自动调节语气节奏,实现自然生动的表达。同时,模型对复杂文本结构与多样化格式展现出较强的鲁棒性,能够稳定处理非规范化输入,保持生成语音的准确性与连贯性。

随着AI语音技术在内容创作、虚拟助手、有声读物等场景的深入应用,对音色个性化与多语种适配的需求日益增长。阿里通义此次推出的两款模型,通过音色定制与快速克隆能力的结合,为开发者和企业用户提供了更高效的语音合成解决方案。模型的开放使用有望进一步降低高质量语音生成的技术门槛,推动个性化语音交互应用的普及。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号