苹果发布多模态模型UniGen 1.5:集成图像理解、生成与编辑于一体
12月19日,据报道,苹果研究团队发布新一代多模态AI模型UniGen 1.5,首次在单一系统中同时集成了图像理解、生成与编辑三大核心功能。与传统需要多个模型分工的方案不同,这一统一框架使模型能利用图像理解能力提升生成质量,并在多项基准测试中展现出领先性能。
UniGen 1.5的核心突破在于通过统一架构处理三类视觉任务。研究团队创新引入了“编辑指令对齐”后训练技术:模型不直接修改图像,而是先根据原图与编辑指令预测出目标图像的详细文本描述,再基于此描述生成最终图像。这一“先想后画”的中间步骤迫使模型深入理解用户意图,显著提高了编辑准确性。
在强化学习层面,团队设计出一套可同时应用于图像生成与编辑的统一奖励机制,解决了因任务跨度大而难以统一评估的难题,使模型在处理各类视觉任务时能遵循一致的质量标准。
根据论文数据,UniGen 1.5在GenEval和DPG-Bench测试中分别获得0.89与86.83的高分,优于近期多款热门模型。在图像编辑专项评测ImgEdit中,其4.31的综合得分与GPT-Image-1等闭源模型表现相当。
不过模型仍存在一定局限。研究人员指出,受离散去标记器在细粒度控制上的不足,模型在生成图像内文字时容易出错;部分编辑场景下也可能出现主体特征漂移,如动物毛发纹理或颜色偏差。这些问题将成为后续优化的重点方向。