[德赛西威+南洋理工等] iPad: 高效且性能卓越的迭代式提案中心端到端自动驾驶框架

iPad: Iterative Proposal-centric End-to-End Autonomous Driving

https://arxiv.org/abs/2505.15111
https://github.com/Kguo-cs/iPad

iPad(Iterative Proposal-centric End-to-End Autonomous Driving, 迭代式提案中心自动驾驶) 是一种创新的#端到端自动驾驶框架,由#德赛西威 联合来自南洋理工和港大的研究团队开发,旨在解决现有方法中因直接基于密集鸟瞰图(BEV)网格特征生成计划而导致的效率低下和规划意识有限的问题。

iPad 框架的核心是 ProFormer,一种#BEV编码器,它通过迭代细化提案及其特征,利用提案锚定的注意力机制有效融合多视图图像数据,从而提升规划的效率和质量。

此外,该框架还引入了两个轻量级的提案中心辅助任务——映射和预测,这些任务专注于与规划提案直接相关的对象建模,进一步优化了规划过程,同时避免了不必要的计算开销和虚假相关性。

iPad 框架的主要特点包括其高效的提案中心机制,该机制能够显著降低计算复杂度,同时提升规划的多样性和准确性。通过迭代细化提案,iPad能够更好地捕捉与规划相关的场景信息,从而生成更符合人类驾驶习惯的轨迹。

此外,该框架在真实世界和模拟环境中的广泛实验表明,iPad不仅在性能上达到了行业领先水平,而且在计算效率上也表现出色,比现有的先进方法更加高效。

技术解读

iPad(迭代式提案中心自动驾驶)技术提出了一种创新的端到端自动驾驶框架,以稀疏的候选未来计划(提案)为中心,通过迭代细化这些提案及其特征,实现高效的感知、预测和规划一体化。该技术利用多视图图像数据,通过提案锚定的注意力机制,聚焦于与规划最相关的区域,从而提升规划的效率和质量。

其处理过程及技术特点主要包括:

  • iPad的核心是ProFormer,一种基于鸟瞰图(BEV)的编码器,它通过迭代过程预测和细化提案。初始提案查询基于自车状态初始化,随后通过提案锚定的可变形自注意力和空间交叉注意力机制,聚合多视图图像特征来更新提案查询。这一过程重复进行,逐步提高提案的准确性。
  • 此外,iPad引入了两个轻量级的提案中心辅助任务——映射和预测,分别用于预测提案的状态是否在道路上或路线上,以及预测可能与提案轨迹发生碰撞的物体的未来状态。这些辅助任务与规划过程紧密耦合,进一步提升了规划的质量。
  • iPad在计算效率上表现出色,其复杂度与提案数量呈线性关系,远低于传统密集BEV网格方法的二次方复杂度。通过专注于规划相关的特征提取,iPad避免了传统方法中常见的信息瓶颈和虚假相关性问题。
  • 在NAVSIM和CARLA Bench2Drive基准测试中,iPad不仅实现了最先进的性能,而且在计算效率上比现有领先方法高出10倍以上。

iPad 技术通过其创新的提案中心机制和高效的特征提取方法,为端到端自动驾驶领域提供了一种高效、可解释且性能卓越的新方法。其在真实世界和模拟环境中的出色表现,证明了其在复杂驾驶场景中的实用性和可靠性。iPad 的高效性和准确性使其在自动驾驶的实际应用中具有巨大的潜力,尤其是在需要实时决策和高精度规划的场景中。此外,iPad的轻量级设计和对计算资源的高效利用,使其更适合于在资源受限的环境中部署,如嵌入式系统和移动设备。

论文速读

摘要

  • 端到端(E2E)自动驾驶系统通过减少信息丢失和误差累积,相比传统模块化流程有潜力提升机动性和安全性。但现有E2E方法大多直接基于密集的鸟瞰图(BEV)网格特征生成计划,导致效率低下且规划意识有限。

  • 本文提出迭代式提案中心自动驾驶(iPad)框架,以提案(一组候选未来计划)为中心进行特征提取和辅助任务。核心是ProFormer,一种BEV编码器,通过提案锚定注意力迭代细化提案及其特征,有效融合多视图图像数据。

  • 还引入两个轻量级的提案中心辅助任务——映射和预测,以最小的计算开销提升规划质量。在NAVSIM和CARLABench2Drive基准测试中的大量实验表明,iPad实现了最先进的性能,且比先前领先方法效率更高。代码已公开。

引言

  • 自动驾驶车辆因有潜力变革交通并提升交通安全而备受关注。传统自动驾驶系统由多个模块组成,但模块间解耦的学习和设计会导致信息丢失和误差累积。

  • 近期E2E驾驶范式作为有前景的替代方案出现,利用整体的、完全可微的模型将原始传感器数据直接映射到规划输出。早期E2E方法直接从高维输入学习到轨迹或控制命令的映射,但优化困难且缺乏可解释性。

  • 近期工作引入中间BEV网格特征,但基于密集网格的方法计算成本高,且常捕捉到与无关场景元素的虚假相关性,导致规划性能下降和因果混淆。iPad框架通过迭代细化提案来克服这些限制,将规划作为整个架构的核心组织原则。

相关工作

  • E2E自动驾驶的目标是从原始传感器输入直接生成车辆运动计划或控制命令,绕过特定任务模块。早期工作如ALVINN、PilotNet等直接将传感器观测映射到控制动作,但存在可解释性差等问题。

  • 近期研究探索引入中间表示、辅助任务和基于提案的规划来提升性能和鲁棒性。中间表示主要有密集BEV网格和稀疏查询特征两类,iPad通过迭代提案细化将规划直接融入中间表示的学习中。

  • 辅助E2E任务通常包括目标检测、BEV语义分割等,但这些任务计算成本高且与人类驾驶决策过程偏离。iPad提出轻量级的提案中心辅助任务,专注于与规划提案直接相关的对象建模。

  • 规划在自动驾驶中是多模态的,但大多数现有E2E方法生成确定性计划,可能导致不现实或次优行为。iPad通过迭代预测和细化动态规划提案集,紧密整合规划和表示学习,生成多样化、高质量的轨迹同时保持效率。

方法

  • iPad框架包括四个组件:场景编码器处理多视图输入图像和自车状态以提取图像和自车特征;ProFormer迭代细化轨迹提案和查询;评分器预测所有最终提案的规划性能并选择得分最高的作为输出计划;提案中心映射和预测模块在训练期间预测所有最终提案的通行性和碰撞风险,提升可解释性和整体性能。

  • 场景编码器将多视图图像通过图像编码器提取多视图图像特征图,将自车状态编码为自车特征。

  • ProFormer基于BEVFormer构建,迭代细化BEV提案查询,通过提案锚定的可变形自注意力和空间交叉注意力机制,利用多视图图像特征提升提案查询,权重跨迭代共享,并采用最小化N损失监督迭代中的提案预测。

  • 评分器通过最大池化BEV提案特征的时序维度,然后输入多层感知机预测得分,使用二值交叉熵损失进行训练,根据安全性、效率、舒适性等子指标计算真实得分。

  • 提案中心映射和预测任务分别预测所有提案模拟状态的在路和在路线概率,以及预测与规划轨迹可能碰撞的首个有责和可能碰撞的代理的未来状态,均使用轻量级的多层感知机实现,并通过相应的损失函数进行监督。

实验

  • 在真实世界的NAVSIM基准测试和模拟的CARLABench2Drive基准测试上进行实验。

  • 在NAVSIM基准测试中,数据集基于真实世界的nuPlan数据集构建,强调涉及意图变化的复杂驾驶场景,使用官方navtrain和navtest分割进行训练和评估。评价指标包括无责任碰撞、可行驶区域合规性、时间到碰撞、舒适性和自车进度等子指标,以及综合这些子指标的PDM分数。结果表明,iPad在所有指标上均显著优于先前工作,且不依赖激光雷达输入。

  • 在CARLABench2Drive基准测试中,使用CARLA模拟器进行闭环驾驶性能评估,数据集由Think2Drive专家模型收集。开放环路性能使用平均L2距离评估,闭环评估在多个包含安全关键场景的路线上进行,使用成功率、驾驶分数、效率和舒适性等指标。iPad在成功率和驾驶分数上实现最先进的性能,且轻量级网络设计使其具有显著降低的延迟,适合实时应用,还在五个驾驶技能的平均性能上表现最佳,展现出处理多样化和挑战性场景的多样性和鲁棒性。

消融研究

  • 在NAVSIM基准测试上进行消融研究,结果表明:

    • 用ProFormer替代BEVFormer可显著提升所有规划指标,证明了提案感知空间交叉注意力机制的优势。

    • 用提案中心的映射和预测任务替代Transfuser中的标准任务,会降低驾驶区域合规性和无责任碰撞及时间到碰撞的性能,体现了提案中心辅助任务在提升驾驶性能方面的价值。

可扩展性

  • 研究iPad随着提案数量、迭代次数和训练数据规模增加的规划性能趋势。在NAVSIM基准测试的测试集上评估最终PDM分数,结果呈现出明显的幂律扩展趋势。提案数量增加提升了规划分布的灵活性和模型的表示能力;更多细化迭代通过利用更多图像特征提高了提案的准确性;更大的训练数据量有助于模型更好地泛化。

定性分析

  • 在NAVSIM和Bench2Drive场景中可视化规划和预测结果。在NAVSIM转弯场景中,iPad生成与实际人类轨迹紧密对齐的多样化、类似人类的规划提案,预测结果准确反映碰撞风险,优先考虑得分较高的中心提案。在Bench2Drive并线场景中,iPad产生无碰撞的规划,预测结果有效突出碰撞风险并优先考虑保守的并线提案。

局限性

  • 未纳入历史图像和状态信息以维持效率,但利用历史数据有助于解决遮挡问题并提升其他代理轨迹预测的准确性。缺乏真实世界的闭环评估,虽然开放环路评估使用真实世界数据,但闭环性能因分布偏移而不确定,模拟闭环评估面临从模拟到现实的差距挑战,如模拟无法充分捕捉真实世界驾驶的复杂性和不可预测性,包括边缘情况、意外人类行为和多样化环境条件等。

结论

  • 提出了iPad,这是一种新颖的端到端自动驾驶框架,重新思考了规划在E2E学习范式中的角色。通过将稀疏的、可学习的提案置于感知、预测和规划的核心,iPad提供了一种统一的、可解释的且计算效率高的替代方案,与基于密集BEV网格的方法相比。提出的ProFormer编码器和轻量级的提案中心辅助任务使模型能够专注于与规划相关的信息,同时避免不必要的计算和虚假相关性。在具有挑战性的真实世界和仿真基准测试上的大量实验表明,iPad实现了最先进的性能,且比先前工作效率更高。