阿里通义千问首个图像生成基础模型 Qwen-Image 开源 支持中文高保真输出

2025-08-05 11:06:52   |   唐薇   |   1145

8月5日,阿里通义千问团队今日宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。

Qwen-Image 的主要特性包括:

文本渲染能力:Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。

一致性的图像编辑能力:通过增强的多任务训练范式,Qwen-Image 在编辑过程中能保持编辑的一致性。

跨基准性能表现:在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA。

Qwen-Image 在所有基准测试中均取得了最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。

除了文本处理,Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示。在图像编辑方面,Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能实现专业级的图像编辑。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里通义千问首个图像生成基础模型 Qwen-Image 开源 支持中文高保真输出

2025-08-05 11:06:52 浏览量: 1145 作者: 唐薇

8月5日,阿里通义千问团队今日宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。

Qwen-Image 的主要特性包括:

文本渲染能力:Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。

一致性的图像编辑能力:通过增强的多任务训练范式,Qwen-Image 在编辑过程中能保持编辑的一致性。

跨基准性能表现:在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA。

Qwen-Image 在所有基准测试中均取得了最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。

除了文本处理,Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示。在图像编辑方面,Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能实现专业级的图像编辑。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号