阿里开源新一代语音识别模型Qwen3-ASR,支持52种语种与方言识别

2026-01-30 16:14:09   |   嫣然   |   1428

1月30日,据报道,阿里云千问团队宣布正式开源其新一代语音识别模型系列Qwen3-ASR。该系列包括两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个用于语音时间戳标注的强制对齐模型Qwen3-ForcedAligner-0.6B。官方表示,此次开源旨在推动语音识别与理解技术的开放发展,相关模型结构、权重及完整的推理框架将一并向社区开放。

Qwen3-ASR系列的核心突破在于其对多语种、多场景的高覆盖与高准确识别能力。两个语音识别模型均能通过单一模型实现30种语言的语种识别与语音转写,并支持22种中文方言及多个地区的英文口音识别,总计覆盖52种语种与方言。其中,1.7B版本在中文、英文、方言识别及歌唱转写等多项评测中达到当前开源模型的领先水平,尤其在复杂声学环境与特殊语言模式场景下表现出较强的稳定性。

为兼顾不同场景下的性能与效率需求,该系列提供了不同规模的模型选择。Qwen3-ASR-0.6B虽然在参数量上更为精简,但在多项中英文测试中仍保持稳健表现,并显著提升了推理效率。据官方数据,该模型在128并发异步服务模式下可实现2000倍的吞吐加速,能在10秒内处理长达5小时的音频,适用于高并发、实时的语音处理场景。

除了语音识别,此次开源的Qwen3-ForcedAligner-0.6B强制对齐模型也引人关注。该模型支持11种语言的音频与文本时间戳对齐,能够对语音中任意位置进行精准的时间标注。官方称,其时间戳预测精度已超越WhisperX、NeMo-ForcedAligner等现有主流方案,同时保持了高效的推理速度。

技术架构上,Qwen3-ASR融合了创新的预训练语音编码器AuT与Qwen3-Omni基座模型的多模态能力,使模型在语音识别精度与鲁棒性上获得提升。该系列模型同时支持流式与非流式一体化推理,单次可处理最长20分钟的音频。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里开源新一代语音识别模型Qwen3-ASR,支持52种语种与方言识别

2026-01-30 16:14:09 浏览量: 1428 作者: 嫣然

1月30日,据报道,阿里云千问团队宣布正式开源其新一代语音识别模型系列Qwen3-ASR。该系列包括两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个用于语音时间戳标注的强制对齐模型Qwen3-ForcedAligner-0.6B。官方表示,此次开源旨在推动语音识别与理解技术的开放发展,相关模型结构、权重及完整的推理框架将一并向社区开放。

Qwen3-ASR系列的核心突破在于其对多语种、多场景的高覆盖与高准确识别能力。两个语音识别模型均能通过单一模型实现30种语言的语种识别与语音转写,并支持22种中文方言及多个地区的英文口音识别,总计覆盖52种语种与方言。其中,1.7B版本在中文、英文、方言识别及歌唱转写等多项评测中达到当前开源模型的领先水平,尤其在复杂声学环境与特殊语言模式场景下表现出较强的稳定性。

为兼顾不同场景下的性能与效率需求,该系列提供了不同规模的模型选择。Qwen3-ASR-0.6B虽然在参数量上更为精简,但在多项中英文测试中仍保持稳健表现,并显著提升了推理效率。据官方数据,该模型在128并发异步服务模式下可实现2000倍的吞吐加速,能在10秒内处理长达5小时的音频,适用于高并发、实时的语音处理场景。

除了语音识别,此次开源的Qwen3-ForcedAligner-0.6B强制对齐模型也引人关注。该模型支持11种语言的音频与文本时间戳对齐,能够对语音中任意位置进行精准的时间标注。官方称,其时间戳预测精度已超越WhisperX、NeMo-ForcedAligner等现有主流方案,同时保持了高效的推理速度。

技术架构上,Qwen3-ASR融合了创新的预训练语音编码器AuT与Qwen3-Omni基座模型的多模态能力,使模型在语音识别精度与鲁棒性上获得提升。该系列模型同时支持流式与非流式一体化推理,单次可处理最长20分钟的音频。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号