做一个有温度、专业的全栈式AI&AIGC交流社区!
“ 今年多模态大语言模型成为了一个行业研究热点话题,虽然多模态大型语言模型(MLLMs)在各种2D视觉和语言任务中显示出令人难以置信的能力。但是当前它的主要能力只是应用在二维空间中,而NVIDIA的科学家们尝试着将MLLMs的感知能力扩展到三维空间中的图像中。为了完成该任务,作者首先将多个现有的二维和三维识别数据集组合到一个通用的任务公式下,开发了一个大规模的2D与3D预训练数据集,称为LV3D。然后,引入了一个新的MLLM,名为Cube LLM,并在LV3D数据集上面对其进行预训练。Cube LLM在Talk2Car数据集上的3D推理和DriveLM数据集上关于驾驶场景的复杂推理分别显著优于现有基线21.3分的APBEV和17.7分。”
项目主页-https://janghyuncho.github.io/Cube-LLM/
代码链接-https://github.com/NVlabs/Cube-LLM
论文链接-https://arxiv.org/pdf/2405.03685
01-3D理解任务简介
02-3D-LLM发展历程
2024年3月,Armen Avetisyan,Christopher Xie等人提出“SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model”算法。SceneScript是一种使用自回归、基于标记的方法直接将全场景模型生成为结构化语言命令序列的方法。它使用端到端的学习方法直接从视觉数据中联合估计房间布局与对象。作者提出的场景表示受到transformers和LLM的启发,并与通常将场景描述为网格、体素网格、点云或辐射场的传统方法不同。该方法使用场景语言编码器-解码器架构直接从编码的视觉数据推断出一组结构化语言命令。SceneScript不是使用硬编码规则将原始视觉数据转换为房间建筑元素的近似值,而是使用端到端机器学习直接推断房间的几何结构。通过这种方法生成的物理场景表示具有以下特点:紧凑、将内存需求减少到只有几个字节、完整,能够产生清晰的几何图形、类似于可缩放的矢量图形;更重要的是,它是可解释的,这意味着我们可以轻松地阅读和编辑这些表示。
多模态大型语言模型(MLLMs)在各种2D视觉和语言任务中显示出令人难以置信的能力。然而,当前它的主要能力只是应用在二维空间中,NVIDIA的科学家们尝试着将MLLMs的感知能力扩展到三维空间中图像中。
为了完成该任务,作者首先将多个现有的二维和三维识别数据集组合到一个通用的任务公式下,开发了一个大规模的2D与3D预训练数据集,称为LV3D。然后,引入了一个新的MLLM,名为Cube LLM,并在LV3D数据集上面对其进行预训练。
大量的实验结果表明:在没有3D特定建筑设计或训练目标的情况下,纯数据缩放可以产生强大的3D感知能力。Cube LLM表现出与LLM相似的有趣特性:1)Cube LLM可以应用思维链提示来提高对2D上下文信息的3D理解能力。2) Cube LLM可以遵循复杂多样的指令,并适应多种输入和输出格式。3) Cube LLM可以被可视化提示,例如来自专家的2D框或一组候选3D框。
上图展示了Cube-LLM的整体流程。它的输入是一段文本提示与一张真实场景捕获到的2D图片,它的输出是3D检测框的结果。详细的步骤如下所述:
首先,将输入的文本提示输入到Tokenizer获取其特征表示;
然后,将输入的2D图像输入到一个DINO v2-L视觉编码器中提取特征表示;
05-Cube-LLM算法实现细节
05.01-任务格式扩展细节
上图展示了该算法的任务格式扩展实现细节。通过分解三维接地任务的现有标签格式,一个完整的3D位置可以分解为中心点([x,y,z])、深度([z]),(投影的)2D点([xc,yc])和(投影的的)2D框([x1,y1,x2,y2])。作者定义了各种任务,这些任务之间相互连接,从而训练一种通用的I/O格式。其中左图展示了可用(分解)注释。右图展示了各种训练任务。
05.02-LV3D数据集细节
Cube LLM的训练过程包含预训练阶段与微调阶段。
预训练是在LV3D上进行的。在这个阶段,所有对象深度z都被转换为与虚拟相机对齐(与Omni3D的做法相同),并转换为对数比例。对于每个(x,y,z,w,h,l,r1,r2,r3),作者将图像坐标中的x和y从0归一化到999。对于z,作者设置zmin=?4和zmax=5(对数刻度后),并在0和999中重新刻度。类似地wmin=0,wmax=15,hmin=0,hmax=15、lmin=0,lmax=15。所有的欧拉角都在0和2π之间归一化。作者按照“偏航”、“俯仰”和“滚转”的顺序训练所有3个欧拉角。预训练中的这种角度排序确保了微调前后的一致顺序排序。为了在推理过程中支持灵活的问题格式,作者准备了一组问题模板,并在训练过程中为每个对象随机采样一个。对于文本不包含方向特定信息的数据集,作者应用随机水平翻转数据增强。作者随机打乱对象顺序,即使有重复的问题也使用所有对象,并根据语言模型的上下文长度截断训练令牌序列(4096)。作者使用冻结图像编码器预训练336×336的图像大小,使用完全训练预训练672×672。
Cube LLM微调会发生一些变化。由于微调基准都是针对室外场景的,作者将z微调为以米为单位(即,无对数刻度),并设置zmin=0,zmax=140。同时也忽略“俯仰”和“滚转”,只训练“偏航”:(x,y,z,w,h,l,r1)。作者对Talk2Car、DriveLM基础和NuScenes数据集总共进行了10个时代的微调。在系统提示中随机提示地面实况框,以允许专家在推理时进行提示。作者还随机抽样查询2D边界框、3D边界框或2D到3D多回合问答。
上图展示了Cube-LLM的专家模型提示能力。Cube-LLM可以通过结合任何模态的专家模型来进一步改进其预测结果。Cube-LLM只是将它们的预测结果作为附加提示词来使用。
图7.1-室内场景效果展示1
图7.2-室内场景效果展示2
图7.3-室内场景效果展示3
图7.4-室内场景效果展示4
图7.5-室内场景效果展示5
图7.6-室内场景效果展示6
图7.7-室内场景效果展示7
图7.8-室内场景效果展示8
图7.9-室内场景效果展示9
图7.10-室内场景效果展示10
图7.12-室外场景效果展示1
图7.13-室外场景效果展示2
图7.14-室外场景效果展示3
图7.15-室外场景效果展示4
图7.16-室外场景效果展示5
图7.17-室外场景效果展示6
图7.18-室外场景效果展示7
图7.19-室外场景效果展示8
图7.20-室外场景效果展示9
图7.21-室外场景效果展示10
图7.22-室外场景效果展示11
图7.23-室外场景效果展示12
图7.24-室外场景效果展示13
08-Cube-LLM算法性能评估
上表展示了Cube-LLM与其它MLLM在各种视觉问答任务上的客观指标评价结果。通过观察与分析,我们可以发现:与其它MLLM相比,Cube-LLM在GQA、SQA、POPE等多项指标上获得了最佳的效果,而其它的各项指标也处于前列。
图9.1-开放场景3D接地效果展示
图9.2-复杂推理效果展示
图9.3-3D空间理解效果展示
图9.4-视觉链&专家模型效果展示1
图9.5-视觉链&专家模型效果展示2
图9.6-视觉思维链效果展示
图9.8-3D目标联系效果展示2
图9.9-Cube-LLM在DriveLM QA上的预测效果1
图9.10-Cube-LLM在DriveLM QA上的预测效果2
图9.11-Cube-LLM在DriveLM QA上的预测效果3
图9.12-Cube-LLM在DriveLM QA上的预测效果4
图9.13-Cube-LLM在DriveLM QA上的预测效果5
图9.14-Cube-LLM在DriveLM QA上的预测效果6
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
欢迎你的加入,让我们一起交流、讨论与成长!
若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)
禁止私自转载,需要转载请先征求我的同意!