智谱联合华为开源GLM-Image模型:首个在国产芯片全程训练的多模态SOTA
1月14日,据报道,国内AI公司智谱近日宣布,联合华为共同开源新一代图像生成模型GLM-Image。该模型基于华为昇腾Atlas 800T A2硬件与昇思MindSpore AI框架,完成了从数据预处理到大规模训练的全流程,成为首个在国产芯片上实现全程训练的SOTA(State-of-the-Art)多模态生成模型,标志着国产AI算力生态在训练前沿大模型方面取得重要突破。
GLM-Image在技术架构上采用了自主创新的“自回归+扩散解码器”混合设计,旨在将图像生成能力与语言理解模型深度融合。这一架构试图平衡全局指令理解与局部细节刻画,尤其在知识密集型图像生成场景——如科普插画、PPT图表、海报设计等——中表现出较强的适应性。智谱表示,这是向探索“知识+推理”驱动的“认知型生成”模型方向迈出的关键一步。
在具体性能上,GLM-Image在复杂视觉文本生成与长文本渲染等评测中达到开源模型领先水平,尤其在汉字生成任务上表现突出。通过改进的Tokenizer策略,该模型能自适应处理多种分辨率,原生支持从1024×1024到2048×2048任意比例图像生成,无需针对不同尺寸重新训练。在商业化方面,其API调用模式下生成单张图片成本约为0.1元,具备较好的应用性价比。
从实际场景测试来看,GLM-Image在科普插图、多格漫画、社交媒体封面、商业海报及写实摄影等多种图像生成任务中均展现出可用性。例如,在生成包含复杂逻辑流程的示意图时,模型能够较好理解指令并保持图文一致性;在设计海报时,能兼顾构图美观与文字准确嵌入。