阿里开源新一代语音识别模型Qwen3-ASR，支持52种语种与方言识别

2026-01-30 16:14:09 | 嫣然 | 1428

1月30日，据报道，阿里云千问团队宣布正式开源其新一代语音识别模型系列Qwen3-ASR。该系列包括两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B，以及一个用于语音时间戳标注的强制对齐模型Qwen3-ForcedAligner-0.6B。官方表示，此次开源旨在推动语音识别与理解技术的开放发展，相关模型结构、权重及完整的推理框架将一并向社区开放。

Qwen3-ASR系列的核心突破在于其对多语种、多场景的高覆盖与高准确识别能力。两个语音识别模型均能通过单一模型实现30种语言的语种识别与语音转写，并支持22种中文方言及多个地区的英文口音识别，总计覆盖52种语种与方言。其中，1.7B版本在中文、英文、方言识别及歌唱转写等多项评测中达到当前开源模型的领先水平，尤其在复杂声学环境与特殊语言模式场景下表现出较强的稳定性。

为兼顾不同场景下的性能与效率需求，该系列提供了不同规模的模型选择。Qwen3-ASR-0.6B虽然在参数量上更为精简，但在多项中英文测试中仍保持稳健表现，并显著提升了推理效率。据官方数据，该模型在128并发异步服务模式下可实现2000倍的吞吐加速，能在10秒内处理长达5小时的音频，适用于高并发、实时的语音处理场景。

除了语音识别，此次开源的Qwen3-ForcedAligner-0.6B强制对齐模型也引人关注。该模型支持11种语言的音频与文本时间戳对齐，能够对语音中任意位置进行精准的时间标注。官方称，其时间戳预测精度已超越WhisperX、NeMo-ForcedAligner等现有主流方案，同时保持了高效的推理速度。

技术架构上，Qwen3-ASR融合了创新的预训练语音编码器AuT与Qwen3-Omni基座模型的多模态能力，使模型在语音识别精度与鲁棒性上获得提升。该系列模型同时支持流式与非流式一体化推理，单次可处理最长20分钟的音频。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。