阿里云发布全球首个端到端全模态AI模型Qwen3-Omni,同步开源多项音视频技术

2025-09-23 10:05:14   |   探索者   |   1667

9月23日,阿里云通义千问团队再度以“深夜炸场”方式,正式发布并开源全模态AI模型Qwen3-Omni、语音生成模型Qwen3-TTS,以及图像编辑工具Qwen-Image-Edit-2509。此次发布的核心亮点Qwen3-Omni被定位为业界首个原生端到端全模态模型,可同步处理文本、图像、音频、视频输入,并支持文本与语音流式输出,突破了传统多模态模型需在不同能力间权衡取舍的技术瓶颈。

Qwen3-Omni基于MoE(专家混合)架构与“思考者-表达者”设计,通过多码本技术实现低延迟交互,支持119种文本语言、19种语音输入语言及10种语音输出语言。在36项音视频基准测试中,该模型22项达到全球最新水平,32项在开源模型中领先,其语音识别与对话能力已可对标Gemini 2.5 Pro。同时,团队开源了专用音频描述模型Qwen3-Omni-30B-A3B-Captioner,以填补开源社区在细节描述与低幻觉率音频生成方面的空白。

同步推出的Qwen3-TTS支持17种音色与10种语言(含多种中国方言),在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。图像编辑工具Qwen-Image-Edit-2509则直接对标谷歌Nano Banana,进一步强化了通义在多模态生成领域的竞争力。

阿里云此次将全部模型开源,并通过GitHub、Hugging Face、魔塔等平台提供访问,旨在推动全模态AI技术的普及与生态共建。业界认为,此举不仅展示了中国企业在多模态大模型领域的突破性进展,也为全球开发者提供了更丰富的AI工具选择。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里云发布全球首个端到端全模态AI模型Qwen3-Omni,同步开源多项音视频技术

2025-09-23 10:05:14 浏览量: 1667 作者: 探索者

9月23日,阿里云通义千问团队再度以“深夜炸场”方式,正式发布并开源全模态AI模型Qwen3-Omni、语音生成模型Qwen3-TTS,以及图像编辑工具Qwen-Image-Edit-2509。此次发布的核心亮点Qwen3-Omni被定位为业界首个原生端到端全模态模型,可同步处理文本、图像、音频、视频输入,并支持文本与语音流式输出,突破了传统多模态模型需在不同能力间权衡取舍的技术瓶颈。

Qwen3-Omni基于MoE(专家混合)架构与“思考者-表达者”设计,通过多码本技术实现低延迟交互,支持119种文本语言、19种语音输入语言及10种语音输出语言。在36项音视频基准测试中,该模型22项达到全球最新水平,32项在开源模型中领先,其语音识别与对话能力已可对标Gemini 2.5 Pro。同时,团队开源了专用音频描述模型Qwen3-Omni-30B-A3B-Captioner,以填补开源社区在细节描述与低幻觉率音频生成方面的空白。

同步推出的Qwen3-TTS支持17种音色与10种语言(含多种中国方言),在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。图像编辑工具Qwen-Image-Edit-2509则直接对标谷歌Nano Banana,进一步强化了通义在多模态生成领域的竞争力。

阿里云此次将全部模型开源,并通过GitHub、Hugging Face、魔塔等平台提供访问,旨在推动全模态AI技术的普及与生态共建。业界认为,此举不仅展示了中国企业在多模态大模型领域的突破性进展,也为全球开发者提供了更丰富的AI工具选择。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号