融合LLM与RL的以人为中心自动驾驶“快-慢”双系统架构

Towards Human-Centric Autonomous Driving: A Fast-Slow Architecture Integrating Large Language Model Guidance with Reinforcement Learning

https://arxiv.org/abs/2505.06875

本研究提出了一种新型的#自动驾驶决策框架，旨在实现真正以人为中心的#端到端自动驾驶。研究的核心在于整合#大型语言模型（LLM）和#强化学习（RL），构建了一个“快 - 慢”双系统架构。

其中，LLM作为“慢”系统，负责将用户的高级指令（如“我赶时间，请开快一点”）转化为结构化的指导信号；而强化学习代理则作为“快”系统，负责在实时环境中做出低延迟的决策，确保驾驶的安全性和效率。

这种架构通过解耦高级决策与低级控制，不仅能够精准理解用户意图，还能在复杂交通环境中灵活应对，兼顾安全与效率。

该研究的特点在于其创新性地结合了LLM的自然语言处理能力和RL的实时决策能力，弥补了传统自动驾驶系统在用户交互和适应性方面的不足。通过模拟实验，该框架在多种驾驶场景中表现出色，不仅显著降低了碰撞率，还能够更好地满足用户的个性化偏好，实现了安全、高效且舒适的驾驶体验。

此外，该研究还设计了一种自适应协调机制，允许RL代理在必要时延迟或覆盖LLM的指令，以应对突发的安全风险，进一步提升了系统的可靠性和灵活性。

技术解读

本研究提出了一种“快 - 慢”双系统架构，用于实现以人为中心的自动驾驶。总体思路是通过结合大型语言模型（LLM）的高级指令解析能力和强化学习（RL）的实时决策能力，将用户的自然语言指令转化为具体的驾驶行为，同时确保驾驶过程的安全性和效率。LLM作为“慢”系统，负责将模糊的用户指令转化为结构化的指导信号；而RL代理作为“快”系统，负责在实时环境中做出快速且安全的决策。这种架构通过解耦高级决策与低级控制，实现了用户意图的精准理解与复杂交通环境中的灵活应对。

在处理过程中，LLM首先对用户指令进行解析，并结合当前交通场景和历史经验生成结构化的指令。这些指令被传递给RL系统，RL系统通过多头注意力机制的策略网络，将用户指令与实时环境信息融合，生成最优的驾驶决策。此外，RL系统还配备了一个安全掩码，用于过滤潜在的危险操作，确保决策的安全性。

其技术特性主要包括：（1）能够处理模糊和复杂的用户指令；（2）实时决策能力，确保低延迟响应；（3）自适应协调机制，允许RL系统在必要时延迟或覆盖LLM的指令，以应对突发安全风险；（4）通过模拟实验验证了该架构在多种复杂驾驶场景中的有效性，表现出更高的安全性、效率和用户满意度。

该技术为自动驾驶领域提供了一种新的解决方案，能够更好地满足用户的个性化需求，同时确保驾驶的安全性和舒适性。这种以人为中心的自动驾驶框架不仅提升了用户体验，还为未来自动驾驶技术的发展开辟了新的方向。通过进一步优化和实际道路测试，该技术有望推动自动驾驶技术从标准化任务向更加灵活、智能的方向发展，最终实现真正意义上的自动驾驶。

论文速读

摘要

研究背景：自动驾驶虽在标准化任务中取得进展，但现有方法常忽略用户特定偏好，与用户的交互和适应性有限。
研究方法：提出一种“快 - 慢”决策框架，将大型语言模型（LLM）用于高级指令解析，强化学习（RL）代理用于低级实时决策。LLM 作为“慢”模块，将用户指令转化为结构化指导；RL 代理作为“快”模块，在严格延迟约束下进行时间关键操作。
实验结果：实验表明，该框架不仅降低了碰撞率，还使驾驶行为更符合用户偏好，实现了以人为中心的模式，弥合了乘客需求与复杂交通环境中安全可靠驾驶要求之间的差距。

引言

自动驾驶技术虽有进步，但在实现以人为中心的设计方面仍有差距，即自主系统解读和适应多样化用户偏好的能力不足。
传统数据驱动或基于规则的方法难以将高级、可能模糊的指令转化为有效的低级控制动作，且缺乏整合用户反馈的稳健机制，限制了其适应性。
强化学习（RL）虽在自动驾驶决策算法设计中广泛应用，但通常对用户指令处理过于简化，难以捕捉复杂的人类意图；基于规则的方法虽能更直接地编码人类指导，但适应性差；而大型语言模型（LLM）虽在自然语言理解和生成方面表现出色，但单独使用不足以进行实时、安全关键的控制，且可能忽视安全、交通法规或物理可行性。因此，提出了结合LLM和RL的“快 - 慢”决策框架。

问题表述

将自动驾驶任务建模为部分可观测马尔可夫决策过程（POMDP），并定义了动作空间、观测空间和奖励函数，以指导代理行为朝着安全性、效率、舒适性和用户偏好满足的方向发展。

方法论

框架概述：系统架构分为由LLM驱动的慢系统和由RL驱动的快系统。慢系统将人类指令与场景上下文结合，产生反映用户偏好的结构化指令；快系统将观测空间与LLM的人类中心指令结合，输入到增强注意力机制的策略网络中，低级控制器应用选定的动作，并通过安全掩码过滤危险操作。
基于LLM的慢系统：通过场景编码、记忆检索、基于指令的提示构建和推理以及结构化指令提取等步骤，将用户指令、环境上下文和过去驾驶经验结合起来，产生结构化指令，以平衡用户偏好与实时安全和操作约束。
基于RL的快系统：采用基于多头注意力机制的策略网络来执行实时控制决策，通过观察 - 指令嵌入、多头注意力策略网络、演员 - 评论家优化和基于安全的动作执行器等环节，确保在满足用户偏好和安全约束的同时，实现高效、稳定的决策和执行。

模拟和性能评估

实验设置：在结合Highway - Env和Gymnasium的自定义模拟环境中，设计了三个互补场景，分别测试高速巡航和多车道规划、合作汇入以及在有对向来车的情况下安全超车的能力，并生成了大量随机化场景以进行评估。
实现细节：慢系统使用GPT - 4o - mini作为LLM，快系统策略网络采用两个注意力头和模型维度dmodel = 128，采用演员 - 评论家方案进行策略优化，并在配备高性能硬件的计算平台上进行训练和验证。
性能评估：在学习效率和收敛性方面，与DQN、PPO和A2C等基线算法相比，所提出的模型在每个场景中都能更快地提升回报曲线并稳定在最高渐近值；在行为分析方面，采用DQN、PPO和Dilu作为基线进行比较，所提出的代理在所有场景中均实现了最高的成功率，并在多个可解释指标上表现出色，如最低的加速度变化率，同时在不牺牲安全性和舒适性的情况下满足用户意图。
案例分析：以两车道超车场景为例，展示了所提出框架的优势。与传统RL和LLM基算法不同，该框架能够成功解析用户指令“我赶时间上班，我想开快点”，并在确保安全的前提下，协调慢系统和快系统完成超车动作，同时在必要时快系统可以临时覆盖指令以避免潜在的安全风险，体现了以人为中心设计的核心特点。

结论

本研究介绍了一种将基于LLM的慢系统与基于RL的快系统耦合的人为中心的决策框架。LLM将自然语言指令转化为结构化指令，而RL控制器将这些指令嵌入其观测空间并产生实时动作。广泛的模拟结果表明，所提出的架构在安全性、效率、舒适性和指令遵循性之间取得了最佳平衡。
未来的研究将通过增加语音语调和手势等多模态输入和输出来丰富该框架，以捕捉乘客意图的更细微方面。同时，计划将感知噪声和部分可观察性纳入其中，以缩小模拟与现实世界部署之间的差距，并进行道路试验。