谷歌推出Gemini 2.5 Flash图像编辑模型 AI修图精度与角色一致性显著提升

2025-08-27 16:36:59 | 唐薇 | 359

8月27日，谷歌DeepMind于8月26日正式发布新一代图像生成与编辑模型Gemini 2.5 Flash。该模型在Gemini应用中实现了更精准的文字指令驱动图像编辑能力，能够在修改图片时保持人物、动物或物体的外观一致性，并在多项任务中表现优于OpenAI的GPT-4o，显示出谷歌在多模态AI生成领域的持续进步。

与此前图像生成工具相比，Gemini 2.5 Flash在根据复杂文本修改图像方面展现出更高准确率。其最大亮点为“角色一致性”功能——在生成多张图像时，即使背景、光线或主体姿态发生变化，模型仍能保持同一角色或物体的外观统一。这一能力特别适合品牌宣传、产品多角度展示和系列化视觉内容的批量制作。

该模型支持高精度的局部图像编辑，用户无需手动选择区域即可通过文字指令实现背景虚化、物体移除、瑕疵修复和色彩调整等操作。此外，Gemini 2.5 Flash还具备多图像融合能力，可一次性合并最多三张图像，例如将产品图像自然嵌入室内场景中，生成高度逼真的合成画面。

“风格迁移”也是此次升级的重要功能，用户可将某种纹理、色彩或图案应用到目标对象上，同时保持其原有形状与结构细节。更引人注目的是，模型还展现出初步的“现实推理”能力，能够模拟简单因果关系，例如生成“气球飞向仙人掌并被刺破”的连贯画面。

目前，Gemini 2.5 Flash的图像编辑功能已在Gemini应用中上线，用户需手动切换至“Flash”模型方可使用。生成图像均带有可见水印和不可见的SynthID数字水印，以声明其AI生成属性。开发者现可通过Gemini API、Google AI Studio和Vertex AI平台接入该模型，其定价为每百万输出token 30美元，单张图像处理成本约0.039美元。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。