阿里通义发布两款语音生成模型,支持自然语言自由指令控制

2026-03-02 16:42:54   |   文白不白   |   1538

3月2日,阿里通义实验室语音团队发布了两款支持FreeStyle指令生成的模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。两款模型均允许用户通过自然语言指令直接控制语音生成,但在应用方向上各有侧重。

该模型在Instruct-TTS方向实现能力升级,用户可直接用自然语言描述表达方式,例如“语气坚定一点”“稍微压低音调,语速慢一点”等,模型即可理解并生成相应语音。Fun-CosyVoice3.5新增支持泰语、印尼语、葡萄牙语、越南语,在13种语言的WER和SpkSim客观指标上保持业内领先。

针对生僻字、复杂语句等容易读错的场景,模型进行了专项优化,生僻字读错率从15.2%降至5.3%,长文本朗读更加稳定流畅。通过强化学习技术专项调优,整体听感更加自然,表达更有层次。性能方面,Tokenizer帧率减半,首包延迟降低35%,实时交互场景下响应更快。

该模型支持根据自然语言描述生成目标音色、情绪表达和完整听觉场景,实现“人物+场景”的一体化声音生成。基础属性涵盖性别、年龄、口音、音高、语速;音质特征包括沙哑、清亮、低沉、磁性等;情绪表达覆盖愤怒、悲伤、兴奋、坚定;角色模拟可生成客服、老兵、孩童、播音员等,甚至支持“表面镇定但内心颤抖”等细腻状态表达。

Fun-AudioGen-VD不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。背景环境音可叠加城市喧嚣、咖啡馆背景、战场轰鸣;空间混响效果可模拟大教堂、金属牢房、水下等空间回声;设备听感滤镜可还原老式广播、对讲机、呼吸面罩等特殊音质;动态环境互动支持风噪断续、回声变化、嘶哑效果等实时互动。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里通义发布两款语音生成模型,支持自然语言自由指令控制

2026-03-02 16:42:54 浏览量: 1538 作者: 文白不白

3月2日,阿里通义实验室语音团队发布了两款支持FreeStyle指令生成的模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。两款模型均允许用户通过自然语言指令直接控制语音生成,但在应用方向上各有侧重。

该模型在Instruct-TTS方向实现能力升级,用户可直接用自然语言描述表达方式,例如“语气坚定一点”“稍微压低音调,语速慢一点”等,模型即可理解并生成相应语音。Fun-CosyVoice3.5新增支持泰语、印尼语、葡萄牙语、越南语,在13种语言的WER和SpkSim客观指标上保持业内领先。

针对生僻字、复杂语句等容易读错的场景,模型进行了专项优化,生僻字读错率从15.2%降至5.3%,长文本朗读更加稳定流畅。通过强化学习技术专项调优,整体听感更加自然,表达更有层次。性能方面,Tokenizer帧率减半,首包延迟降低35%,实时交互场景下响应更快。

该模型支持根据自然语言描述生成目标音色、情绪表达和完整听觉场景,实现“人物+场景”的一体化声音生成。基础属性涵盖性别、年龄、口音、音高、语速;音质特征包括沙哑、清亮、低沉、磁性等;情绪表达覆盖愤怒、悲伤、兴奋、坚定;角色模拟可生成客服、老兵、孩童、播音员等,甚至支持“表面镇定但内心颤抖”等细腻状态表达。

Fun-AudioGen-VD不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。背景环境音可叠加城市喧嚣、咖啡馆背景、战场轰鸣;空间混响效果可模拟大教堂、金属牢房、水下等空间回声;设备听感滤镜可还原老式广播、对讲机、呼吸面罩等特殊音质;动态环境互动支持风噪断续、回声变化、嘶哑效果等实时互动。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号