阿里云发布全球首个端到端全模态AI模型Qwen3-Omni，同步开源多项音视频技术

2025-09-23 10:05:14 | 探索者 | 1667

9月23日，阿里云通义千问团队再度以“深夜炸场”方式，正式发布并开源全模态AI模型Qwen3-Omni、语音生成模型Qwen3-TTS，以及图像编辑工具Qwen-Image-Edit-2509。此次发布的核心亮点Qwen3-Omni被定位为业界首个原生端到端全模态模型，可同步处理文本、图像、音频、视频输入，并支持文本与语音流式输出，突破了传统多模态模型需在不同能力间权衡取舍的技术瓶颈。

Qwen3-Omni基于MoE（专家混合）架构与“思考者-表达者”设计，通过多码本技术实现低延迟交互，支持119种文本语言、19种语音输入语言及10种语音输出语言。在36项音视频基准测试中，该模型22项达到全球最新水平，32项在开源模型中领先，其语音识别与对话能力已可对标Gemini 2.5 Pro。同时，团队开源了专用音频描述模型Qwen3-Omni-30B-A3B-Captioner，以填补开源社区在细节描述与低幻觉率音频生成方面的空白。

同步推出的Qwen3-TTS支持17种音色与10种语言（含多种中国方言），在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。图像编辑工具Qwen-Image-Edit-2509则直接对标谷歌Nano Banana，进一步强化了通义在多模态生成领域的竞争力。

阿里云此次将全部模型开源，并通过GitHub、Hugging Face、魔塔等平台提供访问，旨在推动全模态AI技术的普及与生态共建。业界认为，此举不仅展示了中国企业在多模态大模型领域的突破性进展，也为全球开发者提供了更丰富的AI工具选择。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。