小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版
12月26日,小红书联合复旦大学正式发布布局控制生成(Layout-to-Image)领域的前沿技术 InstanceAssemble,该方案凭借独创的“实例组装注意力”机制,实现从稀疏布局到高密度场景的毫秒级精准图像合成,相关论文已入选NeurIPS 2025会议。
传统AI绘画从“文字驱动”迈向“空间约束生成”后,长期受限于对象定位漂移、语义错位与计算冗余三大瓶颈。InstanceAssemble 的突破在于,它不再将布局视为全局提示,而是以独立实例为单元进行精细化建模——每个边界框内的物体,均通过专属注意力路径独立编码,再经级联融合模块统一协调,彻底避免了多对象间的语义干扰。
该技术基于扩散变换器(DiT)架构,仅需输入物体的位置坐标与语义描述,即可在指定区域生成高度一致的视觉内容。无论是单个静物摆拍,还是包含数十个元素的复杂室内场景,系统均能保持像素级对齐与风格统一。
其核心优势更体现在轻量化部署上:
适配 Stable Diffusion 3-Medium 仅需新增 7100万参数(占模型总量约3.46%)
面向 Flux.1 模型的适配开销更低,仅增加 0.84% 额外参数
无需全模型重训,通过LoRA模块即可完成快速迁移,显著降低应用门槛
为系统评估布局控制精度,研究团队构建了迄今最大规模的Denselayout基准集,涵盖5000张图像与90,000个标注实例,并首创Layout Grounding Score(LGS) 评估指标,首次实现对“位置-语义”匹配度的量化打分。
实验表明,即使在训练阶段仅使用≤10个实例的稀疏数据,InstanceAssemble 在≥100个实例的密集布局测试中仍保持领先性能,泛化能力远超ControlNet、HiCo等现有方案。
目前,InstanceAssemble 的完整代码与预训练模型已开源,供全球开发者在GitHub平台免费获取,为电商视觉设计、广告创意生成、虚拟场景搭建等场景提供高精度、低门槛的AI绘图新范<9>3</9>式。