让马斯克、黄仁勋、奥特曼、杰夫·贝索斯等大佬们跨越时空来“拍一张虚拟合照”！

做一个有温度、专业的全栈式AI&AIGC交流社区！

“基于单个ID的文生图算法已经很多了，它们可以通过简单的文本描述生成高精度的输出图片。然而，我们的生活中经常也会遇到同时需要生成多个ID的图片的场景。尽管用于单ID个性化的模型可以适用于在推理期间通过用掩模分割区域来生成多ID图像。然而，由于结构限制，它们无法避免与多概念个性化相关的问题，如省略、混合和拆分等。本文小编就来给大家介绍一款可以同时保持多个ID信息的文生图算法-InstantFamily。这是一种利用新颖的掩码交叉注意机制和多模态嵌入堆栈来实现零样本多ID图像生成的方法。因为该方法利用了与文本条件相结合的预训练人脸识别模型的全局和局部特征，因而它可以有效地保留ID信息。”

论文链接-https://arxiv.org/pdf/2404.19427

01-多ID个性化任务发展历程

2023年，Guangxuan Xiao, Tianwei Yin等人提出“Fastcomposer: Tuning-free multi-subject image generation with localized attention”算法。本文提出了FastComposer，它可以在不进行微调的情况下实现高效、个性化、多主题的文本到图像生成。FastComposer使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本条件，实现基于主题图像和文本指令的个性化图像生成，只需向前传递。为了解决多主题生成中的身份混合问题，FastComposer提出了在训练过程中进行跨注意力定位监督，将参考主题的注意力集中到目标图像中的正确区域。对主体嵌入的天真条件导致主体过拟合。FastComposer在去噪步骤中提出了延迟的主题条件，以在主题驱动的图像生成中保持身份和可编辑性。FastComposer可以生成具有不同风格、动作和背景的多个看不见的个人的图像。与基于微调的方法相比，它实现了300x-2500x的加速，并且不需要为新的主题增加额外的存储空间。FastComposer为高效、个性化和高质量的多主题图像创作铺平了道路。
2024年，Zhen Li, Mingdeng Cao等人提出"PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding"算法。本文介绍了PhotoMaker，这是一种高效的个性化文本到图像生成方法，主要将任意数量的输入ID图像编码到堆栈ID嵌入中，以保存ID信息。这种嵌入作为统一的ID表示，不仅可以全面封装同一输入ID的特征，还可以容纳不同ID的特征进行后续集成。这为更有趣和更有实际价值的应用铺平了道路。此外，为了推动PhotoMaker的训练，作者提出了一个面向ID的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下PhotoMaker表现出比基于测试时间微调的方法更好的ID保存能力，同时提供了显著的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用。

02-InstantFamily算法背景

所谓的多ID个性化任务，即利用简单的文本描述和包含多ID的输入图片以及控制姿势的条件图片来控制生成包含多个ID的图像。尽管用于单ID个性化的模型可以适用于在推理期间通过用掩模分割区域来生成多ID图像。然而，由于结构限制，它们无法避免与多概念个性化相关的问题，如省略、混合和拆分等。由于这些限制，因而需要一种专门为多ID个性化设计的方法。有针对多个概念的图像生成方法。

03-InstantFamily算法简介

在个性化图像生成领域，创建图像保存概念的能力得到了显著的提升。然而在一个有凝聚力和视觉吸引力的构图中，创造一个自然融合多个概念的图像却存在着众多的挑战。

本文介绍了InstantFamily，这是一种利用新颖的掩码交叉注意机制和多模态嵌入堆栈来实现零样本多ID图像生成的方法。因为该方法利用了与文本条件相结合的预训练人脸识别模型的全局和局部特征，因而它可以有效地保留ID信息。此外，掩码交叉注意力机制能够精确控制生成图像中的多ID和构图。

大量的实验表明：InstantFamily在生成多ID图像方面具有强大的优势，同时解决了众所周知的多ID生成问题。除此之外，该模型在单ID和多ID保存方面都实现了最先进的性能。另外，该模型展示出强大的可扩展性，与最初训练时相比，它具有更多的ID保留效果。

04-InstantFamily算法流程

上图展示了InstantFamily算法的整体架构。图a展示了准备多模态嵌入堆栈的实现过程；图b展示了掩码的交叉注意力机制。详细的步骤如下所述：

首先，将包含多ID信息的图片分别输入到一个人脸检测算法、添加噪声模块和一个位姿估计算法中，分别获取到经过对齐的人脸、带有噪声的图片和位姿控制图。
然后，将对齐的多个人脸和文本提示分别输入到一个人脸引擎和一个文本编码器中，分别获得人脸的特征表示和文本特征Kt。
接着，通过对人脸特征进行积分操作，从而获得局部映射特征和全局映射特征，并将它们拼接起来。并与Kt进行拼接，从而获得Kf。
接着，重新安排人脸的位置信息，并将掩码M与经过多模态嵌入堆叠的KT与Q相乘之后的结果执行点积操作。
接着，将噪声图片和位姿控制图片分别输入到UNet与ControlNet模型中执行掩码交叉注意力操作。同时该过程会将掩码M嵌入到UNet与ControlNet的编解码层中。
最后，通过UNet输出最终的结果。

05-InstantFamily算法细节

05.01-训练与推理过程

上图展示了InstantFamily算法的训练与推理过程。模型训练阶段，用户需要输入文本提示和训练图片，通过人脸检测器和位姿估计算法处理之后能够获得对齐的人脸和位姿控制图，将文本提示、对齐的人脸和位姿控制图同时输入到InstantFamily模型中来训练该模型。

模型推理阶段，模型的权重信息被冻结，用户可以输入任何多ID图片、位姿提取图和文本提示信息。该算法经过推理之后就可以将ID图片上面的ID信息、位姿提取图中的位置信息以及文本提示信息结合起来，从而生成最终的结果。

05.02-掩码跨注意力机制处理细节

整个掩码跨注意力处理机制主要包含3个主要的步骤：1）通过Q和多模态嵌入堆栈KT获得QKT；2) 通过在QKT上面添加掩码信息M；3) 通过Softmax上一步的输出，并通过与V相乘获得注意力机制Attention（Q,K,V）键值对。

06-InstantFamily算法性能评估

06.01-主观效果性能评估

上图展示了该算法与多个SOTA算法（IP-Adapter、FastComoser）在相同的文本与图像输入的情况下生成的图像效果。通过仔细观察与分析，我们可以得出以下的初步结论：与其它基线算法相比，该算法生成的效果更加逼真、色彩更丰富、更有韵味一些。

06.02-客观指标性能评估

上表展示而来该方法与最先进的多个基线方法在生成单ID图像方面的客观指标评估结果。主要比较的指标包括：身份一致性保持、文本一致性。通过观察我们可以发现：该算法在单一ID图像生成场景上的ID保持效果更好一些，文本一致性方面有待进一步提升。

上表展示了该算法与FastComposer算法在多ID生成方面的客观指标评估结果。主要比较的指标包括：身份一致性保持、文本一致性。通过观察我们可以发现：该算法在身份一致性保持与文本一致性方面都远优于基线算法。

07-InstantFamily算法效果展示

图7.1-InstantFamily算法生成效果展示1

图7.2-InstantFamily算法在不同的ID与文本提示下的生成效果

图7.3-InstantFamily算法生成效果展示2

08-文末福利

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们（备注：AI产品汇）

禁止私自转载，需要转载请先征求我的同意！