CV无监督新纪元 | {大幅超越}监督学习,SHIC彻底重塑“关键点检测”游戏规则,强到离谱!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



 关联在计算机视觉中起着重要作用,它在姿态估计、3D重建、检索、图像和视频编辑等任务中具有广泛的应用场景。在本文中,作者考虑了在没有人工监督的情况下学习任何给定类型对象的密集关键点的问题。关键点识别共同的对象部分,将它们对应起来,并在分析对象的几何形状和姿态时提供关键的抽象。本文通过利用现成的基础模型自动学习高质量的密集关键点来检验这一假设。给定一个对象类(例如马或霸王龙)的单个模板网格来定义关键点的索引集,以及给定类的少至1000个掩码示例图像,该算法可以学习到高质量的图像到模板的映射关系。SHIC将估计图像到模板对应关系的问题简化为使用来自基础模型的特征预测图像到图像对应关系。通过将对象的图像与模板的非真实感渲染进行匹配来实现,这模拟了为此任务收集手动注释的过程。然后,这些对应关系用于监督任何感兴趣对象的高质量规范映射。



项目主页-https://www.robots.ox.ac.uk/~vgg/research/shic/

代码链接-https://github.com/suny-sht/shic

论文链接-https://arxiv.org/pdf/2407.18907v1

Demo链接-https://huggingface.co/spaces/suny-sht/shic




01-SHIC背景简介

    关联在计算机视觉中起着重要作用,它在姿态估计、3D重建、检索、图像和视频编辑等任务中具有广泛的应用场景。在本文中,作者考虑了在没有人工监督的情况下学习任何给定类型对象的密集关键点的问题。关键点识别共同的对象部分,将它们对应起来,并在分析对象的几何形状和姿态时提供关键的抽象。虽然关键点的数量通常很小,但密集关键点是一种概括,它考虑了由对象的3D模板表面索引的连续关键点家族。密集的关键点比稀疏的关键点提供更细微的信息,并在计算机视觉和计算机图形学中得到了广泛的应用。

    虽然它们很有用,但是由于需要收集合适的手动注释来学习关键点,尤其是密集的关键点,这仍然是一项劳动密集型的劳动。因此,大多数关键点检测器仅限于应用在一些重要的特定对象类别,如人类。能够将其推广到更多类别的方法要么性能有限,要么需要为每个类添加大量的手动注释。它们无法扩展到现有绝大多数对象类型的学习(密集)关键点。

    相比之下,DINO、CLIP、GPT-4、DALL-E和稳定扩散等基础模型是从数十亿张互联网图像和视频中训练出来的,对观察到的内容类型几乎没有限制。虽然这些模型不需要提供有关对象几何的显式信息,但作者假设它们可能隐式地提供这些信息,因此可以用来将几何理解推广到更多的对象类型。

    本文通过利用现成的基础模型自动学习高质量的密集关键点来检验这一假设。给定一个对象类(例如马或霸王龙)的单个模板网格来定义关键点的索引集,以及给定类的少至1000个掩码示例图像,该算法可以学习到高质量的图像到模板的映射关系。

02-SHIC算法简介

    标准曲面映射通过将对象的每个像素分配给3D模板中的对应点来推广关键点检测。DensePose将这一概念推广用于人类分析,此后作者试图将其应用于更多类别,但由于人工监督的高昂成本,成功率比较有限。
    本文介绍了SHIC,这是一种在没有人工监督的情况下学习规范映射的方法,对于大多数类别来说,它比监督方法取得了更好的结果。该想法利用基础计算机视觉模型,如DINO和稳定扩散,这些模型是开放的,因此比自然类别具有更好的先验性。    
    SHIC将估计图像到模板对应关系的问题简化为使用来自基础模型的特征预测图像到图像对应关系。通过将对象的图像与模板的非真实感渲染进行匹配来实现,这模拟了为此任务收集手动注释的过程。然后,这些对应关系用于监督任何感兴趣对象的高质量规范映射。也就是说,作者渲染3D模板的视图,并在源图像中给定查询位置,在渲染图像上找到相应的顶点作为视觉匹配。模板渲染不是照片级真实感,因此匹配过程模拟了先前作品中手动注释密集关键点的过程。我们提出了几个想法,以稳健地汇集从模板的不同呈现中收集的信息,包括考虑可见性。大量实验结果表明,图像生成器可以进一步提高模板视图的真实感,为模型提供额外的监督来源。

    到目前为止,作者描述的方法是无需训练的,因为它只使用现成的组件,但速度很慢,由此产生的对应关系缺乏空间平滑性,因为它们是贪婪地建立的。因此,作者的第二步是使用这些初始对应关系来监督规范表面图形式的更传统的密集关键点检测器。作者利用规范表面嵌入(CSE)表示法,该表示法旨在同时学习几个近端对象类(例如牛、狗和马)的映射,并且还可以通过学习跨模态嵌入来有效地表示图像到模板和图像到图像的映射。最重要的结果是,它可以在不使用任何监督的情况下,在动物类上超越原始手动监督模型。这意味着我们还可以学习全新课程的地图,比如霸王龙或阿帕(电视节目中的一种会飞的野牛),基本上是免费的。

03-SHIC算法流程
03.01-图片与模版对应关系

    上图展示了使用2D渲染的图像到模板间的对应关系。利用无监督语义对应方法,该算法可以找到对象图像与其3D模板渲染之间的对应关系。在这里,作者使用SD-DINO显示了从源位置(用红色注释)到目标图像中所有像素位置的相似性热力图。

    对应关系的质量取决于特征提取器Φ的质量。特别地,通过使用无监督特征,可以在对象的(真实)图像I和3D模板M的渲染之间建立良好的对应关系。虽然对应关系正确地识别了身体部位(爪子)的类型,但有两个显而易见的问题:1)存在左右歧义,这在无监督的语义对应方法中很常见;2)当正确的匹配不可见时(如上图顶部,只有后爪子可见),对应关系总是错误的。
03.02-零样本图片与模版对应关系

    上图显示了源图像I和渲染的3D对象的各种视图Ji之间的相似性映射SIJi,以及在规范曲面本身上映射和合并它们的结果ΣI。我们可以看到形状上的正确语义部分被识别出来(耳朵),左耳朵的根部被选为与查询u最相似的部分。

    作者首先渲染3D模板形状的多个视图。利用预训练特征(SD-DINO),作者发现自然图像上的源点与渲染图像上的所有像素位置之间存在相似之处。最后,作者将所有视图的相似性提升到3D,并将它们汇集在一起,得出像素到顶点的相似性热图(右)。在实践中,按照这种零样本方式建立的对应关系是有噪声的,通过将它们用作伪地面轨迹来细化它们,并用它来训练密集姿态预测器。
03.03-CSE密集位姿预测器
    如上图所示,作者训练了一个CSE密集姿态预测器。其联合训练了一个预测视觉特征的深度网络和一个将LBO特征值转换为共享D维空间的矩阵C。利用从图像中获得的伪地面真实度来形成上述相似性热图并进行叠加。其中,图像编码器是一个冻结的预训练DINO ViT,作者学习的解码器是一个CNN。
04-SHIC算法实现细节
04.01-合成数据生成细节

    上图展示了利用模板和背景图渲染生成的合成数据。作者通过深度渲染生成逼真的图像,为像素体对应关系创建合成数据。作者从图像上的顶点投影中获得的对应顶点。详细的步骤如下所示:

  • 首先,利用获取模型的渲染深度图,利用图片转深度模型预测背景图的深度信息;

  • 接着,将前景与背景信息叠加起来,生成一个完整的深度图;

  • 最后,将深度图和文本提示作为可控条件输入到一个ControlNet模型中,从而生成相关的合成数据。

04.02-图像与图像的对应关系

    上图展示了图像与图像之间的对应关系。作者在PF-PASCAL上显示了图像到图像的对应关系,这是使用像素到顶点到像素匹配发现的。形状上的热力图显示了从源图像位置到每个顶点的相似性。由规范图诱导的图像到图像的对应性明显优于基于图像的CSE嵌入诱导的对应性,再次说明了规范图的重要性。
05-SHIC算法性能评估
05.01-主观效果性能评估
    作者在上图中展示了该数据集的一些定性结果,其中作者根据网格上的相应颜色对图像上的每个点进行了着色。重新映射纹理的规律性说明了对应关系的质量。
通过观察与分析,我们可以发现:该算法学习到的规范映射明显优于伪地面真值(SD-DINO)。与CSE相比,SHIC的表现相似,头部结构更规则。
05.02-客观指标性能评估

    上图展示了该算法与多个SOTA方法(CSE、Zero-shot SD-DINO)在DensePose LVIS数据集上面的客观指标评估结果。通过观察与分析,我们可以发现:与监督和非监督算法相比,该算法在多个类别中获得了最佳的得分结果,与第二名之间拉开了较大的差距。

    上表展示了该算法与先前关于图像间语义对应关系的客观指标评估结果。作者通过直接预测对应关系或通过执行图像到顶点到图像匹配来预测图像到图像的对应关系。通过观察与分析,我们可以发现:与监督和非监督方法相比,该算法在多个类别上面获得了最高的得分,与第二名之间拉开了较大的差距!
06-SHIC算法效果展示

图6.1-SHIC算法效果比较展示1


图6.2-SHIC算法效果比较展示2

图6.3-SHIC算法效果比较展示3

图6.4-SHIC算法特征点效果展示1

    如上图所示,最左边表示该图片的类别和输入图片;通过在输入图片中选择相关的关键点(如图中的红色点),最右边展示了该关键点在3D shape中的具体位置。
图6.5-SHIC算法特征点效果展示2

图6.6-SHIC算法特征点效果展示3

图6.7-SHIC算法特征点效果展示4

图6.8-SHIC算法特征点效果展示5

图6.9-SHIC算法特征点效果展示6

图6.10-SHIC算法特征点效果展示7

图6.11-SHIC算法特征点效果展示8

图6.12-SHIC算法特征点效果展示9

图6.13-SHIC算法特征点效果展示10

关注我,AI热点早知道,AI算法早精通,AI产品早上线!




欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)

禁止私自转载,需要转载请先征求我的同意!