苹果发布40万张图像数据集，用谷歌AI模型推动图像编辑研究

2025-10-29 16:23:02 | 嫣然 | 1205

10月29日，据报道，苹果公司近日发布了名为Pico-Banana-400K的大规模研究数据集，该数据集包含40万张图像，特别值得关注的是，这些图像资源竟是借助谷歌的Gemini-2.5模型构建而成。这项名为《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》的研究成果，旨在解决当前AI图像编辑领域面临的关键瓶颈。

苹果研究团队指出，尽管近年来图像生成与编辑技术取得了显著进步，但开放研究仍然受限于高质量数据集的缺乏。现有数据集往往规模有限、质量参差不齐，且存在领域偏移等问题，严重制约了鲁棒图像编辑模型的发展。

为突破这一困境，苹果研究团队设计了一套严谨的数据构建流程。他们首先从OpenImages数据集中精选了大量真实照片，确保覆盖人物、物体及含文字场景等多样化内容。随后，团队设计了35种不同类型的图像修改指令，并将其归纳为八大类别，包括像素与光度调整、以人为中心的编辑、场景构成与多主体编辑等，从添加胶片颗粒到改变天气条件，从移动物体位置到调整空间关系，覆盖了图像编辑的多个维度。

在数据处理环节，研究人员将原始图像和编辑指令一同输入谷歌的Nanon-Banana模型进行编辑处理，生成的结果再交由Gemini 2.5-Pro模型进行自动质量评估。只有同时通过指令遵循度和视觉质量双重验证的图像才会被纳入最终数据集。

特别值得一提的是，Pico-Banana-400K不仅包含单轮编辑样本，还提供了多轮连续编辑序列以及“偏好对”对比样本，这些丰富的标注信息将有助于模型学习区分理想与不良输出，为训练更智能的图像编辑模型提供了宝贵资源。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。