CV无监督新纪元 | {大幅超越}监督学习，SHIC彻底重塑“关键点检测”游戏规则，强到离谱！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

“ 关联在计算机视觉中起着重要作用，它在姿态估计、3D重建、检索、图像和视频编辑等任务中具有广泛的应用场景。在本文中，作者考虑了在没有人工监督的情况下学习任何给定类型对象的密集关键点的问题。关键点识别共同的对象部分，将它们对应起来，并在分析对象的几何形状和姿态时提供关键的抽象。本文通过利用现成的基础模型自动学习高质量的密集关键点来检验这一假设。给定一个对象类（例如马或霸王龙）的单个模板网格来定义关键点的索引集，以及给定类的少至1000个掩码示例图像，该算法可以学习到高质量的图像到模板的映射关系。SHIC将估计图像到模板对应关系的问题简化为使用来自基础模型的特征预测图像到图像对应关系。通过将对象的图像与模板的非真实感渲染进行匹配来实现，这模拟了为此任务收集手动注释的过程。然后，这些对应关系用于监督任何感兴趣对象的高质量规范映射。”

项目主页-https://www.robots.ox.ac.uk/~vgg/research/shic/

代码链接-https://github.com/suny-sht/shic

论文链接-https://arxiv.org/pdf/2407.18907v1

Demo链接-https://huggingface.co/spaces/suny-sht/shic

01-SHIC背景简介

关联在计算机视觉中起着重要作用，它在姿态估计、3D重建、检索、图像和视频编辑等任务中具有广泛的应用场景。在本文中，作者考虑了在没有人工监督的情况下学习任何给定类型对象的密集关键点的问题。关键点识别共同的对象部分，将它们对应起来，并在分析对象的几何形状和姿态时提供关键的抽象。虽然关键点的数量通常很小，但密集关键点是一种概括，它考虑了由对象的3D模板表面索引的连续关键点家族。密集的关键点比稀疏的关键点提供更细微的信息，并在计算机视觉和计算机图形学中得到了广泛的应用。

虽然它们很有用，但是由于需要收集合适的手动注释来学习关键点，尤其是密集的关键点，这仍然是一项劳动密集型的劳动。因此，大多数关键点检测器仅限于应用在一些重要的特定对象类别，如人类。能够将其推广到更多类别的方法要么性能有限，要么需要为每个类添加大量的手动注释。它们无法扩展到现有绝大多数对象类型的学习（密集）关键点。

相比之下，DINO、CLIP、GPT-4、DALL-E和稳定扩散等基础模型是从数十亿张互联网图像和视频中训练出来的，对观察到的内容类型几乎没有限制。虽然这些模型不需要提供有关对象几何的显式信息，但作者假设它们可能隐式地提供这些信息，因此可以用来将几何理解推广到更多的对象类型。

本文通过利用现成的基础模型自动学习高质量的密集关键点来检验这一假设。给定一个对象类（例如马或霸王龙）的单个模板网格来定义关键点的索引集，以及给定类的少至1000个掩码示例图像，该算法可以学习到高质量的图像到模板的映射关系。

02-SHIC算法简介

标准曲面映射通过将对象的每个像素分配给3D模板中的对应点来推广关键点检测。DensePose将这一概念推广用于人类分析，此后作者试图将其应用于更多类别，但由于人工监督的高昂成本，成功率比较有限。

本文介绍了SHIC，这是一种在没有人工监督的情况下学习规范映射的方法，对于大多数类别来说，它比监督方法取得了更好的结果。该想法利用基础计算机视觉模型，如DINO和稳定扩散，这些模型是开放的，因此比自然类别具有更好的先验性。

SHIC将估计图像到模板对应关系的问题简化为使用来自基础模型的特征预测图像到图像对应关系。通过将对象的图像与模板的非真实感渲染进行匹配来实现，这模拟了为此任务收集手动注释的过程。然后，这些对应关系用于监督任何感兴趣对象的高质量规范映射。也就是说，作者渲染3D模板的视图，并在源图像中给定查询位置，在渲染图像上找到相应的顶点作为视觉匹配。模板渲染不是照片级真实感，因此匹配过程模拟了先前作品中手动注释密集关键点的过程。我们提出了几个想法，以稳健地汇集从模板的不同呈现中收集的信息，包括考虑可见性。大量实验结果表明，图像生成器可以进一步提高模板视图的真实感，为模型提供额外的监督来源。

到目前为止，作者描述的方法是无需训练的，因为它只使用现成的组件，但速度很慢，由此产生的对应关系缺乏空间平滑性，因为它们是贪婪地建立的。因此，作者的第二步是使用这些初始对应关系来监督规范表面图形式的更传统的密集关键点检测器。作者利用规范表面嵌入（CSE）表示法，该表示法旨在同时学习几个近端对象类（例如牛、狗和马）的映射，并且还可以通过学习跨模态嵌入来有效地表示图像到模板和图像到图像的映射。最重要的结果是，它可以在不使用任何监督的情况下，在动物类上超越原始手动监督模型。这意味着我们还可以学习全新课程的地图，比如霸王龙或阿帕（电视节目中的一种会飞的野牛），基本上是免费的。

03-SHIC算法流程

03.01-图片与模版对应关系

上图展示了使用2D渲染的图像到模板间的对应关系。利用无监督语义对应方法，该算法可以找到对象图像与其3D模板渲染之间的对应关系。在这里，作者使用SD-DINO显示了从源位置（用红色注释）到目标图像中所有像素位置的相似性热力图。

对应关系的质量取决于特征提取器Φ的质量。特别地，通过使用无监督特征，可以在对象的（真实）图像I和3D模板M的渲染之间建立良好的对应关系。虽然对应关系正确地识别了身体部位（爪子）的类型，但有两个显而易见的问题：1）存在左右歧义，这在无监督的语义对应方法中很常见；2）当正确的匹配不可见时（如上图顶部，只有后爪子可见），对应关系总是错误的。

03.02-零样本图片与模版对应关系

上图显示了源图像I和渲染的3D对象的各种视图Ji之间的相似性映射SIJi，以及在规范曲面本身上映射和合并它们的结果ΣI。我们可以看到形状上的正确语义部分被识别出来（耳朵），左耳朵的根部被选为与查询u最相似的部分。

作者首先渲染3D模板形状的多个视图。利用预训练特征（SD-DINO），作者发现自然图像上的源点与渲染图像上的所有像素位置之间存在相似之处。最后，作者将所有视图的相似性提升到3D，并将它们汇集在一起，得出像素到顶点的相似性热图（右）。在实践中，按照这种零样本方式建立的对应关系是有噪声的，通过将它们用作伪地面轨迹来细化它们，并用它来训练密集姿态预测器。

03.03-CSE密集位姿预测器