苹果发布40万张图像数据集,用谷歌AI模型推动图像编辑研究
10月29日,据报道,苹果公司近日发布了名为Pico-Banana-400K的大规模研究数据集,该数据集包含40万张图像,特别值得关注的是,这些图像资源竟是借助谷歌的Gemini-2.5模型构建而成。这项名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究成果,旨在解决当前AI图像编辑领域面临的关键瓶颈。
苹果研究团队指出,尽管近年来图像生成与编辑技术取得了显著进步,但开放研究仍然受限于高质量数据集的缺乏。现有数据集往往规模有限、质量参差不齐,且存在领域偏移等问题,严重制约了鲁棒图像编辑模型的发展。
为突破这一困境,苹果研究团队设计了一套严谨的数据构建流程。他们首先从OpenImages数据集中精选了大量真实照片,确保覆盖人物、物体及含文字场景等多样化内容。随后,团队设计了35种不同类型的图像修改指令,并将其归纳为八大类别,包括像素与光度调整、以人为中心的编辑、场景构成与多主体编辑等,从添加胶片颗粒到改变天气条件,从移动物体位置到调整空间关系,覆盖了图像编辑的多个维度。
在数据处理环节,研究人员将原始图像和编辑指令一同输入谷歌的Nanon-Banana模型进行编辑处理,生成的结果再交由Gemini 2.5-Pro模型进行自动质量评估。只有同时通过指令遵循度和视觉质量双重验证的图像才会被纳入最终数据集。
特别值得一提的是,Pico-Banana-400K不仅包含单轮编辑样本,还提供了多轮连续编辑序列以及“偏好对”对比样本,这些丰富的标注信息将有助于模型学习区分理想与不良输出,为训练更智能的图像编辑模型提供了宝贵资源。