谷歌推出Gemini 2.5 Flash图像编辑模型 AI修图精度与角色一致性显著提升
8月27日,谷歌DeepMind于8月26日正式发布新一代图像生成与编辑模型Gemini 2.5 Flash。该模型在Gemini应用中实现了更精准的文字指令驱动图像编辑能力,能够在修改图片时保持人物、动物或物体的外观一致性,并在多项任务中表现优于OpenAI的GPT-4o,显示出谷歌在多模态AI生成领域的持续进步。
与此前图像生成工具相比,Gemini 2.5 Flash在根据复杂文本修改图像方面展现出更高准确率。其最大亮点为“角色一致性”功能——在生成多张图像时,即使背景、光线或主体姿态发生变化,模型仍能保持同一角色或物体的外观统一。这一能力特别适合品牌宣传、产品多角度展示和系列化视觉内容的批量制作。
该模型支持高精度的局部图像编辑,用户无需手动选择区域即可通过文字指令实现背景虚化、物体移除、瑕疵修复和色彩调整等操作。此外,Gemini 2.5 Flash还具备多图像融合能力,可一次性合并最多三张图像,例如将产品图像自然嵌入室内场景中,生成高度逼真的合成画面。
“风格迁移”也是此次升级的重要功能,用户可将某种纹理、色彩或图案应用到目标对象上,同时保持其原有形状与结构细节。更引人注目的是,模型还展现出初步的“现实推理”能力,能够模拟简单因果关系,例如生成“气球飞向仙人掌并被刺破”的连贯画面。
目前,Gemini 2.5 Flash的图像编辑功能已在Gemini应用中上线,用户需手动切换至“Flash”模型方可使用。生成图像均带有可见水印和不可见的SynthID数字水印,以声明其AI生成属性。开发者现可通过Gemini API、Google AI Studio和Vertex AI平台接入该模型,其定价为每百万输出token 30美元,单张图像处理成本约0.039美元。