GraphGSOcc:融合语义与几何的3D语义占位预测技术

GraphGSOcc: Semantic and Geometric Graph Transformer for 3D Gaussian Splating-based Occupancy Prediction

https://arxiv.org/abs/2506.14825

GraphGSOcc 是一种新型#3D语义占位预测模型,旨在解决自动驾驶中的#3D场景理解 问题。

该模型通过结合语义和几何图Transformer,针对现有3D高斯溅射(3DGS)方法的不足进行了改进,具体包括统一特征聚合忽视语义相关性以及MLP迭代优化中缺乏几何约束导致的边界模糊问题。

GraphGSOcc 模型的核心在于其双高斯图注意力(DGGA)机制和多尺度图注意力(MGA)框架,这两个机制通过动态构建几何和语义图,并层次化地细化高斯分布,优化了边界细节和对象级拓扑,从而提高了模型的准确性和效率。

此外,该模型在nuScenes数据集上进行了广泛的实验,结果表明,与现有的先进方法相比,GraphGSOcc 在预测精度和计算效率方面都取得了显著的提升,证明了其在#自动驾驶场景理解 中的潜力和优势。

技术解读

GraphGSOcc 是一种针对自动驾驶场景的3D语义占位预测技术,旨在通过结合语义和几何信息来提高3D场景理解的准确性和效率。该技术的核心在于动态构建双重图结构(几何图和语义图),并通过多尺度图注意力机制来优化高斯分布的特征聚合,从而更好地捕捉场景中的局部几何细节和全局语义关系。

GraphGSOcc 的具体处理过程如下:

  • 首先利用输入的多视角图像序列,通过2D编码器提取图像特征。
  • 接着,模型加载历史帧的高斯分布,并初始化随机先验高斯分布。通过时间对齐模块,模型将历史高斯分布与当前帧对齐,并利用自编码和交叉注意力机制优化高斯分布。
  • 核心的双高斯图注意力(DGGA)模块动态构建几何和语义图,通过计算几何距离和语义相似性来选择邻居节点,并通过自适应融合机制将两个图的特征融合。
  • 多尺度图注意力(MGA)框架进一步通过不同尺度的图结构层次化地细化高斯分布,优化小目标的几何细节。
  • 最终,优化后的高斯分布用于生成当前帧的3D占位预测结果。

GraphGSOcc 的价值在于其显著提高了3D语义占位预测的准确性和效率,这对于自动驾驶中的环境感知至关重要。通过更精确地预测道路、车辆、行人等元素的位置和语义信息,该技术能够帮助自动驾驶系统更好地理解周围环境,从而做出更安全、更可靠的决策。此外,GraphGSOcc的高效计算性能使其在实际应用中更具可行性,尤其是在资源受限的嵌入式系统中。

论文速读

本文介绍了一种名为GraphGSOcc的新型3D语义占位预测模型,旨在解决自动驾驶中的3D场景理解问题。该模型通过结合语义和几何图Transformer,针对现有3D高斯溅射(3DGS)方法的不足进行了改进,具体包括统一特征聚合忽视语义相关性以及MLP迭代优化中缺乏几何约束导致的边界模糊问题。

研究背景与动机

  • 自动驾驶技术的转变:从依赖激光雷达的多模态融合向以视觉为中心的感知技术转变,以降低成本。

  • 3D语义占位预测的重要性:通过预测每个体素的占用状态来理解周围环境,对不规则形状的车辆和特殊道路结构具有泛化能力。

  • 现有方法的局限性:体素化方法计算成本高,平面投影技术丢失高度信息,而基于3DGS的方法虽有效但存在语义相关性和几何约束不足的问题。

GraphGSOcc模型

  • 核心框架:提出了GraphGSOcc模型,通过动态构建双重图结构(几何图和语义图)来增强高斯分布之间的局部几何和语义相关性。

  • 双高斯图注意力(DGGA)机制:动态构建几何和语义图,并通过自适应融合机制将两个图的特征融合,以优化边界细节和对象级拓扑。

  • 多尺度图注意力(MGA)框架:通过不同尺度的图结构层次化地细化高斯分布,优化小目标的几何细节。

方法细节

  • 几何图构建:基于高斯分布的均值计算最近邻节点,动态调整KNN搜索半径。

  • 语义图构建:基于高斯特征计算节点间的相似性,选择最相关的节点构建图。

  • 自适应融合:结合几何和语义图的特征,通过权重生成器动态调整融合比例。

  • 多尺度图注意力:通过定义不同数量的邻居节点范围,捕获不同空间尺度的上下文信息。

实验与结果

  • 数据集:使用nuScenes数据集,包含多种传感器数据,覆盖17个语义类别。

  • 评估指标:采用mIoU和IoU评估语义分割性能。

  • 性能对比:与多种现有方法相比,GraphGSOcc在SurroundOcc数据集上达到了24.10%的mIoU,同时将GPU内存使用量降低到6.1 GB,显示出更高的预测精度和更低的计算成本。

  • 消融研究:验证了DGGA和MGA模块的有效性,以及不同参数设置对模型性能的影响。

结论与展望

  • 模型优势:GraphGSOcc通过结合语义和几何信息,有效地提高了3D语义占位预测的准确性和效率。

  • 未来工作:考虑整合更先进的时序信息以更好地处理动态场景,并探索在更多样化的驾驶场景中的应用。

总体而言,GraphGSOcc模型为自动驾驶中的3D场景理解提供了一种高效且准确的新方法,通过创新的图注意力机制和多尺度特征聚合策略,显著提升了3D语义占位预测的性能。