一键搞定「跨图一致性」,"兼容ControlNet”,无需重训练",再也不怕画风不统一!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



 在计算机视觉和图像处理领域,跨不同实例编辑图像的一致性能力至关重要,但在不同的图像中实现一致性编辑仍然是一项极具挑战性的任务。基于学习的方法往往缺乏适当的正则化,由于难以获得高质量的训练数据和执行一致性约束,导致编辑不一致。非优化方法依赖于注意力特征的隐式对应来进行外观转换,但难以应对不稳定的预测和内在的图像变化,导致编辑不一致或失真。本文提出了Edicho算法,它采用了一种基于扩散模型的无训练解决方案,其基本设计原则是使用显式图像对应关系进行直接编辑。 该算法具有即插即用的特性,与大多数基于扩散模型的编辑方法兼容,如ControlNet和BrushNet。



项目主页-https://ezioby.github.io/edicho/

代码链接-https://github.com/EzioBy/edicho

论文链接-https://arxiv.org/pdf/2412.21079





01-Edicho背景简介

    在计算机视觉和图像处理领域,跨不同实例编辑图像的一致性能力至关重要。一致的图像编辑有助于许多应用程序,例如创建连贯的视觉叙事和保持营销材料中的特征。如上图所示,卖家或消费者可以通过应用一致的装饰元素来增强他们最喜欢的产品(如玩具或鞋子)的照片,使每件商品看起来更具吸引力或个性化。
    尽管图像一致性编辑具有重要意义,但在不同的图像中实现一致性编辑仍然是一项极具挑战性的任务。在图像编辑任务中,基于学习的方法往往缺乏适当的正则化,由于难以获得高质量的训练数据和执行一致性约束,导致编辑不一致。非优化方法依赖于注意力特征的隐式对应来进行外观转换,但难以应对不稳定的预测和内在的图像变化,导致编辑不一致或失真。上图中分别可视化了显式和基于注意力的隐式方法预测的对应关系,并附有对应关系预测的注意力图(注意力权重最高的区域用虚线圆圈标出)。

02-Edicho算法简介

    作者提出了Edicho算法,它采用了一种基于扩散模型的无训练解决方案,其基本设计原则是使用显式图像对应关系进行直接编辑。具体来说,其关键组件包括一个注意力操纵模块和一个精心改进的无分类器引导(CFG)去噪策略,两者都考虑了预先估计的对应关系。    

    该算法具有即插即用的特性,与大多数基于扩散模型的编辑方法兼容,如ControlNet和BrushNet。大量的实验结果证明了Edicho在不同环境下进行一致交叉图像编辑的有效性。

03-Edicho算法应用场景
03.01-一致性图像编辑
    如上图所示,给定两张参考图像,Edicho能够按照零样本的方式生成它们的一致性编辑版本。该方法通过利用显式对应关系,实现了编辑部分(左)、对象(中)和整个图像(右)的精确一致性。
03.02-个性化图像定制生成
    上图展示了该算法的个性化图像定制生成能力,通过一致的编辑方法和定制技术的输出,它可以通过将编辑后的概念注入生成模型中来实现下面的图像定制生成。
03.03-3D重建

    上图展示了该算法采用神经回归器Dust3R进行基于编辑的3D重建过程,整个通过匹配3D空间中的2D点来完成。

04-Edicho算法整体流程

    为了实现一致的编辑,作者提出了一种无需训练、即插即用的方法。该算法的整体流程如下所述:

  • 首先,预测输入图像中的显式对应关系

  • 然后,将预先计算的对应关系注入预先训练的扩散模型中

  • 接着,在无分类器引导(CFG)中的两级注意力特征和噪声潜伏中引导去噪;

  • 最后,通过相关注意力块解码来获得最终的图像编辑结果。
05-Edicho算法实现细节
05.01-显式&隐式对应关系
    上图展示了对应关系预测结果。隐式”后面的数字分别表示对应预测的网络层和去噪步骤。通过观察与分析,我们可以发现:隐式对应的准确性较低,降低了一致性编辑。
05.02-显式&隐式可视化分析
    上图展示了利用注意力映射图来展示其显式与隐式对应关系的预测结果。图中用虚线圆圈标出了注意力权重最高的区域,这表明隐式方法会查询不合理的区域,从而导致不理想和不一致的纹理。a、b和c的注意力特征分别从10、20和35的去噪步骤中提取,其中总步骤为50。

06-Edicho算法性能评估

06.01-主观效果性能评估

    上图分别显示了该算法与多个SOTA的图像编辑方法在全局和局部编辑上的定性比较结果。通过观察与分析,我们可以发现:与其它方法相比,利用该方法进行图像编辑之间的图像具有高度一致性和主题一致性,例如猫的衣服。像MasaCtrl这样的隐含替代品在车顶、精灵的高领口和机器人的孔数方面都失败了。

06.02-客观效果性能评估

    上表分别展示了该方法与多个SOTA方法在全局和局部编辑上的定量比较结果。其中TA表示文本对齐效果,EC表示编辑一致性。通过观察与分析,我们可以发现:该方法在TA与EC指标上都远超其它方法,这充分证明该算法的有效性。

07-Edicho算法效果展示

图7.1-Edicho算法编辑效果展示1

图7.2-Edicho算法编辑效果展示2

图7.3-Edicho算法编辑效果展示3



关注我,AI热点早知道,AI算法早精通,AI产品早上线!



禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们