苹果发布多模态模型UniGen 1.5:集成图像理解、生成与编辑于一体

2025-12-19 17:59:33   |   探索者   |   1347

12月19日,据报道,苹果研究团队发布新一代多模态AI模型UniGen 1.5,首次在单一系统中同时集成了图像理解、生成与编辑三大核心功能。与传统需要多个模型分工的方案不同,这一统一框架使模型能利用图像理解能力提升生成质量,并在多项基准测试中展现出领先性能。

UniGen 1.5的核心突破在于通过统一架构处理三类视觉任务。研究团队创新引入了“编辑指令对齐”后训练技术:模型不直接修改图像,而是先根据原图与编辑指令预测出目标图像的详细文本描述,再基于此描述生成最终图像。这一“先想后画”的中间步骤迫使模型深入理解用户意图,显著提高了编辑准确性。

在强化学习层面,团队设计出一套可同时应用于图像生成与编辑的统一奖励机制,解决了因任务跨度大而难以统一评估的难题,使模型在处理各类视觉任务时能遵循一致的质量标准。

根据论文数据,UniGen 1.5在GenEval和DPG-Bench测试中分别获得0.89与86.83的高分,优于近期多款热门模型。在图像编辑专项评测ImgEdit中,其4.31的综合得分与GPT-Image-1等闭源模型表现相当。

不过模型仍存在一定局限。研究人员指出,受离散去标记器在细粒度控制上的不足,模型在生成图像内文字时容易出错;部分编辑场景下也可能出现主体特征漂移,如动物毛发纹理或颜色偏差。这些问题将成为后续优化的重点方向。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

苹果发布多模态模型UniGen 1.5:集成图像理解、生成与编辑于一体

2025-12-19 17:59:33 浏览量: 1347 作者: 探索者

12月19日,据报道,苹果研究团队发布新一代多模态AI模型UniGen 1.5,首次在单一系统中同时集成了图像理解、生成与编辑三大核心功能。与传统需要多个模型分工的方案不同,这一统一框架使模型能利用图像理解能力提升生成质量,并在多项基准测试中展现出领先性能。

UniGen 1.5的核心突破在于通过统一架构处理三类视觉任务。研究团队创新引入了“编辑指令对齐”后训练技术:模型不直接修改图像,而是先根据原图与编辑指令预测出目标图像的详细文本描述,再基于此描述生成最终图像。这一“先想后画”的中间步骤迫使模型深入理解用户意图,显著提高了编辑准确性。

在强化学习层面,团队设计出一套可同时应用于图像生成与编辑的统一奖励机制,解决了因任务跨度大而难以统一评估的难题,使模型在处理各类视觉任务时能遵循一致的质量标准。

根据论文数据,UniGen 1.5在GenEval和DPG-Bench测试中分别获得0.89与86.83的高分,优于近期多款热门模型。在图像编辑专项评测ImgEdit中,其4.31的综合得分与GPT-Image-1等闭源模型表现相当。

不过模型仍存在一定局限。研究人员指出,受离散去标记器在细粒度控制上的不足,模型在生成图像内文字时容易出错;部分编辑场景下也可能出现主体特征漂移,如动物毛发纹理或颜色偏差。这些问题将成为后续优化的重点方向。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号