小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

2025-12-26 14:14:39   |   嫣然   |   1340

12月26日,小红书联合复旦大学正式发布布局控制生成(Layout-to-Image)领域的前沿技术 ‌InstanceAssemble‌,该方案凭借独创的“实例组装注意力”机制,实现从稀疏布局到高密度场景的毫秒级精准图像合成,相关论文已入选NeurIPS 2025会议。

传统AI绘画从“文字驱动”迈向“空间约束生成”后,长期受限于对象定位漂移、语义错位与计算冗余三大瓶颈。InstanceAssemble 的突破在于,它不再将布局视为全局提示,而是以‌独立实例为单元‌进行精细化建模——每个边界框内的物体,均通过专属注意力路径独立编码,再经级联融合模块统一协调,彻底避免了多对象间的语义干扰。

该技术基于扩散变换器(DiT)架构,仅需输入物体的‌位置坐标‌与‌语义描述‌,即可在指定区域生成高度一致的视觉内容。无论是单个静物摆拍,还是包含数十个元素的复杂室内场景,系统均能保持像素级对齐与风格统一。

其核心优势更体现在‌轻量化部署‌上:

适配 Stable Diffusion 3-Medium 仅需新增 ‌7100万参数‌(占模型总量约3.46%)

面向 Flux.1 模型的适配开销更低,仅增加 ‌0.84%‌ 额外参数

无需全模型重训,通过LoRA模块即可完成快速迁移,显著降低应用门槛

为系统评估布局控制精度,研究团队构建了迄今最大规模的‌Denselayout基准集‌,涵盖5000张图像与90,000个标注实例,并首创‌Layout Grounding Score(LGS)‌ 评估指标,首次实现对“位置-语义”匹配度的量化打分。

实验表明,即使在训练阶段仅使用≤10个实例的稀疏数据,InstanceAssemble 在≥100个实例的密集布局测试中仍保持领先性能,泛化能力远超ControlNet、HiCo等现有方案。

目前,‌InstanceAssemble 的完整代码与预训练模型已开源‌,供全球开发者在GitHub平台免费获取,为电商视觉设计、广告创意生成、虚拟场景搭建等场景提供高精度、低门槛的AI绘图新范<9>3</9>式。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

2025-12-26 14:14:39 浏览量: 1340 作者: 嫣然

12月26日,小红书联合复旦大学正式发布布局控制生成(Layout-to-Image)领域的前沿技术 ‌InstanceAssemble‌,该方案凭借独创的“实例组装注意力”机制,实现从稀疏布局到高密度场景的毫秒级精准图像合成,相关论文已入选NeurIPS 2025会议。

传统AI绘画从“文字驱动”迈向“空间约束生成”后,长期受限于对象定位漂移、语义错位与计算冗余三大瓶颈。InstanceAssemble 的突破在于,它不再将布局视为全局提示,而是以‌独立实例为单元‌进行精细化建模——每个边界框内的物体,均通过专属注意力路径独立编码,再经级联融合模块统一协调,彻底避免了多对象间的语义干扰。

该技术基于扩散变换器(DiT)架构,仅需输入物体的‌位置坐标‌与‌语义描述‌,即可在指定区域生成高度一致的视觉内容。无论是单个静物摆拍,还是包含数十个元素的复杂室内场景,系统均能保持像素级对齐与风格统一。

其核心优势更体现在‌轻量化部署‌上:

适配 Stable Diffusion 3-Medium 仅需新增 ‌7100万参数‌(占模型总量约3.46%)

面向 Flux.1 模型的适配开销更低,仅增加 ‌0.84%‌ 额外参数

无需全模型重训,通过LoRA模块即可完成快速迁移,显著降低应用门槛

为系统评估布局控制精度,研究团队构建了迄今最大规模的‌Denselayout基准集‌,涵盖5000张图像与90,000个标注实例,并首创‌Layout Grounding Score(LGS)‌ 评估指标,首次实现对“位置-语义”匹配度的量化打分。

实验表明,即使在训练阶段仅使用≤10个实例的稀疏数据,InstanceAssemble 在≥100个实例的密集布局测试中仍保持领先性能,泛化能力远超ControlNet、HiCo等现有方案。

目前,‌InstanceAssemble 的完整代码与预训练模型已开源‌,供全球开发者在GitHub平台免费获取,为电商视觉设计、广告创意生成、虚拟场景搭建等场景提供高精度、低门槛的AI绘图新范<9>3</9>式。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号