NVIDIA放大招 | “全球首个立体LLM”强势来袭，横扫多项SOTA，效果强到令人发紫！

做一个有温度、专业的全栈式AI&AIGC交流社区！

“ 今年多模态大语言模型成为了一个行业研究热点话题，虽然多模态大型语言模型（MLLMs）在各种2D视觉和语言任务中显示出令人难以置信的能力。但是当前它的主要能力只是应用在二维空间中，而NVIDIA的科学家们尝试着将MLLMs的感知能力扩展到三维空间中的图像中。为了完成该任务，作者首先将多个现有的二维和三维识别数据集组合到一个通用的任务公式下，开发了一个大规模的2D与3D预训练数据集，称为LV3D。然后，引入了一个新的MLLM，名为Cube LLM，并在LV3D数据集上面对其进行预训练。Cube LLM在Talk2Car数据集上的3D推理和DriveLM数据集上关于驾驶场景的复杂推理分别显著优于现有基线21.3分的APBEV和17.7分。”

项目主页-https://janghyuncho.github.io/Cube-LLM/

代码链接-https://github.com/NVlabs/Cube-LLM

论文链接-https://arxiv.org/pdf/2405.03685

01-3D理解任务简介

3D理解任务是计算机视觉领域中的一个重要任务，旨在从二维图像或视频中推断出场景的三维结构和属性。与传统的二维图像理解任务相比，3D理解任务更加复杂，需要推断出物体的空间位置、形状、姿态、运动、深度等信息。下面展示了一些常见的3D理解任务：

3D物体检测：目标是从图像或点云数据中检测并定位出场景中的三维物体。与传统的2D物体检测不同，3D物体检测需要估计物体的三维边界框及其在世界坐标系中的位姿。
3D物体姿态估计：任务是在给定物体的图像或点云数据中估计物体的姿态，包括旋转和平移。这对于许多应用，如机器人操作、增强现实和虚拟现实等领域非常重要。
3D场景重建：目标是通过多个视角的图像或点云数据，恢复场景的三维结构。这可以用于建立真实世界的模型，如建筑物、城市环境或室内场景等。
3D物体跟踪：任务是在视频序列中对物体进行跟踪，并估计其三维运动。通过跟踪物体的位置和姿态，可以实现许多应用，如自动驾驶、动作捕捉和增强现实等。
3D人体姿态估计：目标是从图像或视频中推断出人体的三维姿态，包括关节点的位置和骨骼连接。这对于行为分析、人机交互和运动捕捉等任务非常重要。

为了解决这些3D理解任务，研究人员开发了各种方法和技术，包括基于深度学习的方法、几何模型、传感器融合和结构化推断等。这些方法通常利用大规模标注的数据集进行训练，并使用复杂的神经网络架构来实现对图像或点云数据的高级理解和推断能力。

3D理解任务在许多领域都有广泛的应用，包括机器人技术、自动驾驶、增强现实、虚拟现实、医疗影像等。通过准确理解场景的三维结构，可以帮助计算机更好地理解和与真实世界进行交互。

02-3D-LLM发展历程

2023年7月，Yining Hong, Haoyu Zhen等人提出“3D-LLM: Injecting the 3D World into Large Language Models”算法。3D-LLM是一个可以将三维世界注入到大型语言模型中的大模型。具体而言，3D-LLMs可以将3D点云及其特征作为输入，并执行各种3D相关任务，包括字幕生成、密集字幕生成、3D问答、任务分解、3D定位、3D辅助对话、导航等。使用作者设计的三种提示机制，你能够收集超过30万个涵盖这些任务的3D语言数据。为了有效地训练3D-LLMs，作者首先利用一个3D特征提取器从渲染的多视图图像中获取3D特征。然后，使用2D VLMs作为基本的骨干来训练3D-LLMs。通过引入3D定位机制，3D-LLMs可以更好地捕捉3D空间信息。
2023年11月，Runsen Xu，Xiaolong Wang等人提出“PointLLM: Empowering Large Language Models to Understand Point Clouds”算法。PointLLM是一种多模态大型语言模型，能够理解带有颜色的物体点云。它能够感知物体类型、几何结构和外观，而不用担心模糊的深度、遮挡或视角依赖性。PointLLM使用人类指令处理带有颜色的物体点云，并生成适用上下文的响应，说明它可以很好的理解和掌握点云数据。具体而言，它利用一个点云编码器和一个强大的LLM来有效地融合几何、外观和语言信息。作者收集了一个新的数据集，包括660K个简单的和70K个复杂的点-文本指令对，以实现两阶段的训练策略。首先对齐潜在空间，然后对统一模型进行指令调整。为了对该模型的感知能力和泛化能力进行严格评估，作者建立了两个基准：生成式3D对象分类和3D对象字幕，通过三种不同的方法进行评估，包括人工评估、GPT-4/ChatGPT评估和传统评估指标。实验结果表明，PointLLM在现有2D基准上表现出优越的性能。值得注意的是，在人工评估的对象字幕任务中，PointLLM在超过50%的样本中胜过人类注释者。
2024年3月，Armen Avetisyan，Christopher Xie等人提出“SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model”算法。SceneScript是一种使用自回归、基于标记的方法直接将全场景模型生成为结构化语言命令序列的方法。它使用端到端的学习方法直接从视觉数据中联合估计房间布局与对象。作者提出的场景表示受到transformers和LLM的启发，并与通常将场景描述为网格、体素网格、点云或辐射场的传统方法不同。该方法使用场景语言编码器-解码器架构直接从编码的视觉数据推断出一组结构化语言命令。SceneScript不是使用硬编码规则将原始视觉数据转换为房间建筑元素的近似值，而是使用端到端机器学习直接推断房间的几何结构。通过这种方法生成的物理场景表示具有以下特点：紧凑、将内存需求减少到只有几个字节、完整，能够产生清晰的几何图形、类似于可缩放的矢量图形；更重要的是，它是可解释的，这意味着我们可以轻松地阅读和编辑这些表示。

03-Cube-LLM算法简介

多模态大型语言模型（MLLMs）在各种2D视觉和语言任务中显示出令人难以置信的能力。然而，当前它的主要能力只是应用在二维空间中，NVIDIA的科学家们尝试着将MLLMs的感知能力扩展到三维空间中图像中。

为了完成该任务，作者首先将多个现有的二维和三维识别数据集组合到一个通用的任务公式下，开发了一个大规模的2D与3D预训练数据集，称为LV3D。然后，引入了一个新的MLLM，名为Cube LLM，并在LV3D数据集上面对其进行预训练。

大量的实验结果表明：在没有3D特定建筑设计或训练目标的情况下，纯数据缩放可以产生强大的3D感知能力。Cube LLM表现出与LLM相似的有趣特性：1）Cube LLM可以应用思维链提示来提高对2D上下文信息的3D理解能力。2） Cube LLM可以遵循复杂多样的指令，并适应多种输入和输出格式。3） Cube LLM可以被可视化提示，例如来自专家的2D框或一组候选3D框。

作者在户外基准测试上的实验结果表明：Cube LLM在Talk2Car数据集上的3D推理和DriveLM数据集上关于驾驶场景的复杂推理分别显著优于现有基线21.3分的APBEV和17.7分。Cube LLM还显示了在一般MLLM基准中的竞争结果，如用于2D基础的refCOCO，平均得分为（87.0），以及用于复杂推理的视觉问答基准，如VQAv2、GQA、SQA、POPE等。

04-Cube-LLM算法流程

上图展示了Cube-LLM的整体流程。它的输入是一段文本提示与一张真实场景捕获到的2D图片，它的输出是3D检测框的结果。详细的步骤如下所述：

首先，将输入的文本提示输入到Tokenizer获取其特征表示；
然后，将输入的2D图像输入到一个DINO v2-L视觉编码器中提取特征表示；
最后，将文本与图像特征同时送入一个LLM模型中，LLM模型会输出相应的3D检测框，具体的效果如图中所示。

05-Cube-LLM算法实现细节

05.01-任务格式扩展细节

上图展示了该算法的任务格式扩展实现细节。通过分解三维接地任务的现有标签格式，一个完整的3D位置可以分解为中心点（[x，y，z]）、深度（[z]），（投影的）2D点（[xc，yc]）和（投影的的）2D框（[x1，y1，x2，y2]）。作者定义了各种任务，这些任务之间相互连接，从而训练一种通用的I/O格式。其中左图展示了可用（分解）注释。右图展示了各种训练任务。

05.02-LV3D数据集细节

LV3D数据集中的每个数据都是一对图像和注释。每个注释都由每个图像中存在的对象列表组成，每个对象都有一个问答对列表。如果数据来自2D数据集（例如，COCO），则问答对包括“文本→ 2D框“，”2D中心→ 2D框“，”2D框→ 类似地，如果数据来自3D数据集（例如NuScenes），则问题包括“文本→ 三维框“，”二维中心→ 三维框“，”二维中心→ 深度“，”2D框→ 如主要文件第3节所述。为了补充文本信息，作者利用每个对象类的每个数据集的元数据，例如NuScenes数据集中的对象属性（“行人”→ “一个行走的行人”）。

原始注释包含大量带有重复答案的噪声。作者只是简单地移除完全相同和不相关答案的问答对。作者还将所有边界框转换为与Cube LLM相同的格式。对于数据标准化，作者遵循Omni3D，并将所有数据集转换为遵循焦距f=512的虚拟相机。

05.03-Cube-LLM训练细节

Cube LLM的训练过程包含预训练阶段与微调阶段。

预训练是在LV3D上进行的。在这个阶段，所有对象深度z都被转换为与虚拟相机对齐（与Omni3D的做法相同），并转换为对数比例。对于每个（x，y，z，w，h，l，r1，r2，r3），作者将图像坐标中的x和y从0归一化到999。对于z，作者设置zmin=？4和zmax=5（对数刻度后），并在0和999中重新刻度。类似地wmin=0，wmax=15，hmin=0，hmax=15、lmin=0，lmax=15。所有的欧拉角都在0和2π之间归一化。作者按照“偏航”、“俯仰”和“滚转”的顺序训练所有3个欧拉角。预训练中的这种角度排序确保了微调前后的一致顺序排序。为了在推理过程中支持灵活的问题格式，作者准备了一组问题模板，并在训练过程中为每个对象随机采样一个。对于文本不包含方向特定信息的数据集，作者应用随机水平翻转数据增强。作者随机打乱对象顺序，即使有重复的问题也使用所有对象，并根据语言模型的上下文长度截断训练令牌序列（4096）。作者使用冻结图像编码器预训练336×336的图像大小，使用完全训练预训练672×672。

Cube LLM微调会发生一些变化。由于微调基准都是针对室外场景的，作者将z微调为以米为单位（即，无对数刻度），并设置zmin=0，zmax=140。同时也忽略“俯仰”和“滚转”，只训练“偏航”：（x，y，z，w，h，l，r1）。作者对Talk2Car、DriveLM基础和NuScenes数据集总共进行了10个时代的微调。在系统提示中随机提示地面实况框，以允许专家在推理时进行提示。作者还随机抽样查询2D边界框、3D边界框或2D到3D多回合问答。

06-Cube-LLM算法核心能力展示

06.01-思维链提示能力

上图展示了Cube-LLM具备的思维链提示能力。就像LLM一样，Cube-LLM可以通过思维链提示（CoT）来改进其预测结果，从而将从2D到3D边界框的类似推理步骤连接在一起。

06.02-专家模型融合能力

上图展示了Cube-LLM的专家模型提示能力。Cube-LLM可以通过结合任何模态的专家模型来进一步改进其预测结果。Cube-LLM只是将它们的预测结果作为附加提示词来使用。

07-Cube-LLM算法应用场景

07.01-真实室内场景