阿里云发布全球首个端到端全模态AI模型Qwen3-Omni,同步开源多项音视频技术
9月23日,阿里云通义千问团队再度以“深夜炸场”方式,正式发布并开源全模态AI模型Qwen3-Omni、语音生成模型Qwen3-TTS,以及图像编辑工具Qwen-Image-Edit-2509。此次发布的核心亮点Qwen3-Omni被定位为业界首个原生端到端全模态模型,可同步处理文本、图像、音频、视频输入,并支持文本与语音流式输出,突破了传统多模态模型需在不同能力间权衡取舍的技术瓶颈。
Qwen3-Omni基于MoE(专家混合)架构与“思考者-表达者”设计,通过多码本技术实现低延迟交互,支持119种文本语言、19种语音输入语言及10种语音输出语言。在36项音视频基准测试中,该模型22项达到全球最新水平,32项在开源模型中领先,其语音识别与对话能力已可对标Gemini 2.5 Pro。同时,团队开源了专用音频描述模型Qwen3-Omni-30B-A3B-Captioner,以填补开源社区在细节描述与低幻觉率音频生成方面的空白。
同步推出的Qwen3-TTS支持17种音色与10种语言(含多种中国方言),在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。图像编辑工具Qwen-Image-Edit-2509则直接对标谷歌Nano Banana,进一步强化了通义在多模态生成领域的竞争力。
阿里云此次将全部模型开源,并通过GitHub、Hugging Face、魔塔等平台提供访问,旨在推动全模态AI技术的普及与生态共建。业界认为,此举不仅展示了中国企业在多模态大模型领域的突破性进展,也为全球开发者提供了更丰富的AI工具选择。