苹果发布多模态模型UniGen 1.5：集成图像理解、生成与编辑于一体

2025-12-19 17:59:33 | 探索者 | 1354

12月19日，据报道，苹果研究团队发布新一代多模态AI模型UniGen 1.5，首次在单一系统中同时集成了图像理解、生成与编辑三大核心功能。与传统需要多个模型分工的方案不同，这一统一框架使模型能利用图像理解能力提升生成质量，并在多项基准测试中展现出领先性能。

UniGen 1.5的核心突破在于通过统一架构处理三类视觉任务。研究团队创新引入了“编辑指令对齐”后训练技术：模型不直接修改图像，而是先根据原图与编辑指令预测出目标图像的详细文本描述，再基于此描述生成最终图像。这一“先想后画”的中间步骤迫使模型深入理解用户意图，显著提高了编辑准确性。

在强化学习层面，团队设计出一套可同时应用于图像生成与编辑的统一奖励机制，解决了因任务跨度大而难以统一评估的难题，使模型在处理各类视觉任务时能遵循一致的质量标准。

根据论文数据，UniGen 1.5在GenEval和DPG-Bench测试中分别获得0.89与86.83的高分，优于近期多款热门模型。在图像编辑专项评测ImgEdit中，其4.31的综合得分与GPT-Image-1等闭源模型表现相当。

不过模型仍存在一定局限。研究人员指出，受离散去标记器在细粒度控制上的不足，模型在生成图像内文字时容易出错；部分编辑场景下也可能出现主体特征漂移，如动物毛发纹理或颜色偏差。这些问题将成为后续优化的重点方向。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。