阿里开源新一代语音识别模型Qwen3-ASR,支持52种语种与方言识别
1月30日,据报道,阿里云千问团队宣布正式开源其新一代语音识别模型系列Qwen3-ASR。该系列包括两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个用于语音时间戳标注的强制对齐模型Qwen3-ForcedAligner-0.6B。官方表示,此次开源旨在推动语音识别与理解技术的开放发展,相关模型结构、权重及完整的推理框架将一并向社区开放。
Qwen3-ASR系列的核心突破在于其对多语种、多场景的高覆盖与高准确识别能力。两个语音识别模型均能通过单一模型实现30种语言的语种识别与语音转写,并支持22种中文方言及多个地区的英文口音识别,总计覆盖52种语种与方言。其中,1.7B版本在中文、英文、方言识别及歌唱转写等多项评测中达到当前开源模型的领先水平,尤其在复杂声学环境与特殊语言模式场景下表现出较强的稳定性。
为兼顾不同场景下的性能与效率需求,该系列提供了不同规模的模型选择。Qwen3-ASR-0.6B虽然在参数量上更为精简,但在多项中英文测试中仍保持稳健表现,并显著提升了推理效率。据官方数据,该模型在128并发异步服务模式下可实现2000倍的吞吐加速,能在10秒内处理长达5小时的音频,适用于高并发、实时的语音处理场景。
除了语音识别,此次开源的Qwen3-ForcedAligner-0.6B强制对齐模型也引人关注。该模型支持11种语言的音频与文本时间戳对齐,能够对语音中任意位置进行精准的时间标注。官方称,其时间戳预测精度已超越WhisperX、NeMo-ForcedAligner等现有主流方案,同时保持了高效的推理速度。
技术架构上,Qwen3-ASR融合了创新的预训练语音编码器AuT与Qwen3-Omni基座模型的多模态能力,使模型在语音识别精度与鲁棒性上获得提升。该系列模型同时支持流式与非流式一体化推理,单次可处理最长20分钟的音频。