点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达
版权声明
文章题目:A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS
Arxiv 链接:https://arxiv.org/pdf/2503.06072v1
普遍认为,真正的智能赋予我们推理能力,使我们能够检验假设,并为未来的可能性做好准备。—— Jean Khalfa,《什么是智能?》,1994
大型语言模型(LLMs)的出现从根本上改变了自然语言处理,使其在从对话系统到科学探索等多个领域不可或缺。然而,它们的预训练架构在特定情境下常常暴露出局限性,包括推理能力有限、伦理不确定性以及领域特定性能不佳等问题。这些挑战需要先进的后训练语言模型(PoLMs)来解决这些不足,例如 OpenAI-o1/o3 和 DeepSeek-R1(统称为大型推理模型,或 LRMs)。本文首次全面综述了 PoLMs,系统地追溯了它们在五个核心范式中的演变:微调(Fine-tuning),提高任务特定准确性;对齐(Alignment),确保伦理一致性和与人类偏好的对齐;推理(Reasoning),尽管在奖励设计方面存在挑战,但仍推进多步推理;效率(Efficiency),在复杂性不断增加的情况下优化资源利用;以及集成与适应(Integration and Adaptation),扩展跨多种模态的能力,同时解决一致性问题。从 2018 年 ChatGPT 的基础对齐策略到 2025 年 DeepSeek-R1 的创新推理进展,我们展示了 PoLMs 如何利用数据集减轻偏差、深化推理能力和增强领域适应性。我们的贡献包括对 PoLM 演变的开创性综合、对技术和数据集的结构化分类,以及强调 LRMs 在提高推理能力和领域灵活性方面的战略议程。作为这一范围内的首个综述,本研究整合了最近的 PoLM 进展,并为未来的研究建立了严格的理论框架,促进在科学和社会应用中精确、伦理稳健且多功能的 LLMs 的发展。
语言模型(LMs) 是设计用于建模和生成人类语言的复杂计算框架。这些模型通过使机器能够以接近人类认知的方式理解、生成和与人类语言互动,彻底改变了自然语言处理(NLP) 领域。与人类通过与环境的交互和接触自然习得语言技能不同,机器必须经过广泛的数据驱动训练才能发展出类似的能力。这提出了一个重要的研究挑战,因为使机器能够理解并生成人类语言,同时进行自然、上下文恰当的对话,不仅需要巨大的计算资源,还需要精细的模型开发方法。
大型语言模型(LLMs) 的出现,如 GPT-3、Instruct GPT 和 GPT-4,标志着语言模型进化的一个变革阶段。这些模型以其广泛的参数化和先进的学习能力为特征,旨在捕捉复杂的语言结构、上下文关系和大规模数据集中的细微模式。这使得 LLMs 不仅能够预测后续单词,还能在包括翻译、问答和摘要在内的各种任务中生成连贯且上下文相关的文本。LLMs 的发展引发了广泛的学术兴趣,可以分为两个主要阶段:预训练(pre-training) 和后训练(post-training)。
预训练的概念源自计算机视觉(CV)任务中的迁移学习。其主要目标是使用大量数据集开发一个通用模型,以便轻松微调以适应各种下游应用。预训练的一个重要优势是能够利用任何未标注的文本语料库,从而提供丰富的训练数据来源。然而,早期的静态预训练方法,如神经网络语言模型(NNLM) 和 Word2vec,难以适应不同的文本语义环境,促使了动态预训练技术的发展,如 BERT 和 XLNet。BERT 通过利用 Transformer 架构并在大规模未标注数据集中使用自注意力机制,有效解决了静态方法的局限性。这项研究建立了“预训练和微调”的学习范式,启发了众多后续研究,引入了多种架构,包括 GPT-2 和 BART。
后训练是指模型经过预训练后所采用的技术和方法,旨在细化和适应特定任务或用户需求。随着具有 1750 亿个参数的 GPT-3 的发布,后训练领域经历了显著的兴趣和创新激增。出现了多种方法来提高模型性能,包括微调(fine-tuning),即使用标注数据集或特定任务数据调整模型参数;对齐策略(alignment strategies),即优化模型以更好地与用户偏好对齐;知识适配技术(knowledge adaptation techniques),即使模型能够纳入领域特定知识;以及推理改进(reasoning improvements),即增强模型的逻辑推理和决策能力。这些技术统称为后训练语言模型(PoLMs),催生了如 GPT-4、LLaMA-3、Gemini-2.0 和 Claude-3.5 等模型的开发,标志着 LLM 能力的重大进展。然而,后训练模型通常难以不经重新训练或重大参数调整而适配新任务,这使得 PTM 开发成为活跃的研究领域。
正如所强调的,预训练语言模型(PLMs) 主要旨在提供一般知识和能力,而 PoLMs 则专注于将这些模型适应特定任务和需求。一个显著的例子是最新一代的 LLM,DeepSeek-R1,它展示了 PoLMs 在增强推理能力、与用户偏好对齐以及提高跨领域适应性方面的演变。此外,开源 LLMs(例如 LLaMA、Gemma 和 Nemotron)和领域特定的大规模数据集(例如 Prompt Source 和 Flan)的日益可用,正在推动学术研究人员和行业从业者开发 PoLMs 的趋势。这一趋势突显了在 PoLMs 领域中定制适应性的重要性。
在现有文献中,PLMs 已被广泛讨论和综述,而 PoLMs 很少被系统地审查。为了推进这些技术,有必要彻底审查现有的研究成果,以识别关键挑战、差距和进一步改进的机会。本调查旨在填补这一空白,通过提供一个结构化的框架来研究后训练的演变。如图1所示,它探讨了后训练的多个阶段,特别关注从 ChatGPT 到 DeepSeek 所采用的方法。这些技术涵盖了广泛的 方法,包括微调、LLM 对齐、推理增强和效率改进。图中的蓝色部分特别突出了 DeepSeek 应用的一组后训练方法,强调了为其成功适应用户偏好和领域特定需求做出贡献的创新策略。
本文是关于PoLMs的首个全面综述,提供了该领域最新进展的详尽、结构化的探索。尽管先前的综述通常集中于LLM开发的具体方面,例如偏好对齐、参数高效的微调[39]和LLM的基础技术[40],但它们大多集中在狭窄的子主题上。相比之下,本综述采取了整体方法,全面回顾了后训练中常用的核?技术,并系统地对这些技术进行了分类。此外,我们研究了这些方法所依赖的数据集和实际应用,如图2所示,并指出了未来研究的开放挑战和有前景的方向。本综述的主要贡献如下:
本综述系统地组织,全面探讨了后训练语言模型(Post-training Language Models, PoLMs),涵盖了其历史演变、方法论、数据集、应用及未来趋势。第2节提供了PoLMs的历史概述。第3节考察了微调技术,包括第3.1节的监督微调(Supervised Fine-Tuning, SFT)和第3.3节的强化微调(Reinforcement Fine-Tuning, RFT)。第4节讨论了对齐问题,涵盖第4.1节的人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)、第4.2节的人工智能反馈强化学习(Reinforcement Learning from AI Feedback, RLAIF)以及第4.3节的直接偏好优化(Direct Preference Optimization, DPO)。第5节聚焦推理能力,包括第5.1节的自精炼方法(Self-Refinement Methods)和第5.2节的推理强化学习(Reinforcement Learning for Reasoning)。第6节调查了提高效率的方法,包括第6.1节的模型压缩(Model Compression)、第6.2节的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)和第6.3节的知识蒸馏(Knowledge Distillation)。第7节研究了集成与适应技术,涉及多模态方法、领域适应和模型融合。第8节回顾了后训练中使用的数据集。第9节探索了大型语言模型的应用。第10节评估了开放问题和未来方向。最后,第11节以总结和研究展望作为结尾。
大型语言模型(LLM)的发展构成了自然语言处理(NLP)领域的一个重要篇章,其中后训练方法作为关键催化剂,推动了这些模型从通用预训练架构向专门化任务适应系统的演变。本节概述了后训练语言模型(PoLM)的历史轨迹,追溯其发展从以 BERT 和 GPT 代表的预训练里程碑到现代模型如 o1 和 DeepSeek-R1 所体现的复杂后训练范式。如图3所示,这一进展反映了从建立广泛的语言能力到增强任务特定适应性、伦理一致性、推理复杂性和多模态整合的转变,标志着LLM能力的变革之旅。
现代PoLM历史的开端与2018年的预训练革命相吻合,当时 BERT 和 GPT 的发布重新定义了NLP基准。BERT的双向自动编码框架利用了Transformer架构和自注意力机制,在诸如问答等任务中出色地捕捉了上下文依赖关系;而GPT的自回归设计则侧重于生成连贯性,为文本生成设定了先例。这些模型确立了“预训练和微调”范式,随后在2019年通过T5 进一步完善,该模型统一了多种任务的文本到文本框架,促进了多任务学习并为后训练进步奠定了坚实基础。
从2020年起,PoLM的格局开始显著演变,这主要是由于需要高效地将预训练模型适应于各种任务并在数据有限的情况下进行。早期创新如前缀调优和提示调优引入了轻量级适应策略,通过修改模型输入而不是重新训练整个架构来实现多任务灵活性,从而节省计算资源并扩大应用范围。这一时期还见证了以用户为中心优化的关键转变,即2021年引入的人类反馈强化学习(RLHF),该技术利用人类评估使模型输出与主观偏好对齐,增强了对话场景中的实用性。到2022年,随着近端策略优化(PPO)的采用,RLHF进一步成熟,改进了对齐稳定性和减轻了对噪声反馈的过拟合。2022年底 ChatGPT 的发布凝聚了这些进步,展示了RLHF在创建响应迅速且用户对齐的LLM方面的变革潜力,并催化了 PoLM 研究的激增。同时,思维链(Chain-of-Thought, CoT)提示作为一种推理增强策略出现,鼓励模型在复杂任务中阐述中间步骤,从而提高了透明度和准确性,特别是在逻辑推理和问题解决领域。
2022年至2024年间,PoLM多样化发展,以应对领域特异性、伦理稳健性和多模态整合的需求,反映出对LLM改进越来越细致的方法。领域适配技术如检索增强生成(Retrieval-Augmented Generation, RAG)出现,旨在集成外部知识库,使专门领域的输出更加丰富,而无需进行全面再训练——这对于需要最新信息的专业应用至关重要。伦理对齐努力加强,2023年直接偏好优化(Direct Preference Optimization, DPO)简化了RLHF,直接针对人类偏好优化模型输出,绕过了中间奖励建模,提高了效率和稳健性。与此同时,多模态能力的追求也取得了进展,PaLM-E 和 Flamingo 等模型开创了视觉-语言整合的先河,随后 BLIP-2 和 LLaVA 将这些努力扩展到了更广泛的领域,如医学成像。效率创新与这些发展并行,特别是通过专家混合(Mixture of Experts, MoE)架构;2022年,Google 的 Switch-C Transformer 引入了1.6万亿参数跨2048个专家的稀疏激活,而 Mixtral 进一步完善了这一范式,平衡了可扩展性和性能。期间的推理增强,如自我博弈和蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与CoT的结合,通过模拟迭代推理路径进一步增强了LLM的决策能力,为高级推理导向模型奠定了基础。
一个重要的架构进步是专家混合(MoE)模型的兴起,这些模型通过动态激活选择性的参数子集,从传统的密集架构中脱颖而出,从而优化计算效率并容纳庞大的参数规模。这一范式由 Google 的 Switch-C Transformer 在2022年率先提出,该模型拥有1.6万亿参数分布在2048个专家中,这是一种平衡资源需求与性能提升的开创性方法。后续迭代,如Mixtral 和 DeepSeek V2.5 ——后者利用2360亿总参数,其中21亿活跃于160个专家中——进一步完善了这一框架,在LMSYS基准上取得了最先进的结果,并证明稀疏MoE架构可以在可扩展性和效能方面与密集模型相媲美。这些发展突显了向效率导向的PoLM的转变,使LLM能够以较低的计算开销处理复杂任务,这是扩大其实用性的关键一步。到2025年,DeepSeek-R1 成为了PoLM创新的里程碑,它摆脱了传统监督微调(SFT)的依赖,转而采用链式思维(CoT)推理和探索性RL策略。以DeepSeek-R1-Zero为例,该模型集成了自我验证、反思和扩展的CoT生成,验证了在开放研究范式中RL驱动的推理激励,引入了蒸馏技术将复杂的推理模式从较大的架构转移到较小的架构。这种方法不仅比单独的RL训练表现出更高的性能,还预示了一种可扩展的、以推理为中心的LLM范式,旨在解决后训练方法中持续存在的计算效率和任务适应性挑战。
近端策略优化(PPO)算法是一种关键的强化学习技术,特别适用于需要保持稳定性和效率的场景,例如基于人类反馈的强化学习(RLHF)。PPO通过限制策略更新的幅度来实现这些目标,确保模型行为的变化是渐进和可控的,从而防止性能的灾难性下降。这在微调大规模语言模型时尤为重要,因为剧烈的策略更新可能导致不可取或不可预测的行为。
定义。 在PPO的上下文中,状态 表示时间 的状态,包括模型做出决策所需的所有相关信息。动作 表示模型在给定状态 时所做的选择。这个动作是模型所做的一系列决策的一部分。执行动作后,智能体接收奖励 ,这是来自环境的反馈,表明所采取行动的成功或失败。优势函数 衡量在当前策略 下,在状态 中采取动作 的优势,相对于该状态下所有动作的期望值。它正式定义为动作价值函数 和状态价值函数 之间的差异:
其中 表示在状态 中采取动作 并遵循策略 所获得的预期累积奖励,而 是从状态 开始并遵循策略 所获得的预期累积奖励。这两个函数都考虑了未来的奖励,并通过因子 进行折现。
策略更新。PPO算法通过基于优势函数进行增量更新来优化策略 。策略更新使用剪切目标函数:
其中 表示在当前策略 下采取动作 的概率与旧策略 下采取动作 的概率之比。该比率定义为:
是在时间步 的估计优势,而剪切函数 将策略更新限制在一个安全范围内,由超参数 控制。这种剪切机制确保更新不会与之前的策略相差太大,从而在训练过程中保持稳定性。
价值函数更新。价值函数 估计在给定状态 下,根据策略 获得的预期累积奖励。为了确保价值函数提供准确的估计,它通过最小化预测值与实际奖励之间的均方误差来优化:
其中 是从状态 获得的实际累积奖励,而 是当前策略下的估计值。目标是调整参数 以最小化预测值与实际奖励之间的差异,提高价值函数的准确性。
强化学习结合人类反馈(Reinforcement Learning with Human Feedback, RLHF)是通过在学习过程中利用人类生成的反馈来使模型与人类偏好对齐的关键方法。这种方法引入了一个奖励函数,该函数显式地捕捉了人类输入,使得模型能够更好地适应用户偏好和实际应用。
定义。在 RLHF 中,语言模型 生成一个关于词汇表 的序列的概率分布。模型 从输入空间 中生成一系列的标记 ,其中每个标记都条件依赖于之前的标记。模型的输出由以下条件概率分布定义:
目标函数。策略 是一个与原始模型 结构相同的语言模型。最初,策略 被设置为等于 。目标是通过优化策略来最大化输入输出对 的预期奖励 。奖励函数 为每个输入输出对分配一个标量值,最优策略 通过解决以下最大化问题获得:
这个目标函数代表了一个标准的强化学习问题,其中模型通过与环境的交互并在人类反馈的引导下学习最大化预期奖励。
直接偏好优化(Direct Preference Optimization, DPO) 基于强化学习与人类反馈(RLHF),通过直接根据人类偏好优化模型的输出来改进模型。这些偏好通常以成对比较的形式表达。DPO 消除了传统奖励函数的需要,而是通过最大化基于偏好的奖励来优化模型行为。
在一般奖励函数 下,KL 约束下的奖励最大化目标的最优解由下式给出:
其中 是确保输出在所有可能动作上归一化的分区函数。即使使用真实奖励 的最大似然估计 ,分区函数 也可以近似,从而简化优化过程。这种表述通过直接根据人类反馈调整策略,使得偏好优化更加高效。
使用 Bradley-Terry 模型,该模型描述了两个输出 和 之间的偏好,最优策略 满足以下偏好模型:
其中 表示在给定输入 的情况下,人类更喜欢输出 而不是 的概率。这种方法有效地将人类偏好纳入模型的优化过程中。
组相对策略优化(Group Relative Policy Optimization, GRPO)算法是强化学习中近端策略优化(Proximal Policy Optimization, PPO)算法的一种变体,首次在 DeepSeek 的前期工作《Deep Seek Math: 推动开放语言模型中的数学推理极限》中提出。GRPO 省略了评估模型(critic model),而是使用组得分来估计基线,这与 PPO 相比显著减少了训练资源消耗。
定义。 GRPO 和 PPO 算法之间最显著的区别在于优势函数的计算方法。从第 2.2.1 节中的公式 1 可以看出,PPO 中优势函数 的值是从 Q 值和 V 值之间的差异得出的。
目标函数。 具体来说,对于每个问题 ,GRPO 从旧策略 中采样一组输出 ,然后通过最大化以下目标来优化策略模型:
其中 和 是超参数, 是基于每组内部输出的相对奖励计算的优势,详细内容将在第 5.2 节中介绍。
微调构成了将预训练大型语言模型(LLMs)适应特定任务的核心,通过有针对性的参数调整来优化其能力。这一过程利用标注数据集或任务特定数据集来优化性能,弥合通用预训练与领域特定需求之间的差距。本章探讨三种主要的微调范式:监督微调(§3.1),使用标注数据集来提高任务特定的准确性;自适应微调(§3.2),通过指令微调和基于提示的方法来定制模型行为;以及强化微调(§3.3),将强化学习整合进来,根据奖励信号迭代地优化输出,通过动态交互促进持续改进。
监督微调(Supervised Fine-Tuning, SFT) 通过利用特定任务的标注数据集,将预训练的大型语言模型(LLMs)适应于特定任务。不同于依赖指令提示的指令微调,SFT直接使用标注数据调整模型参数,生成既精确又具有上下文感知能力的模型,同时保留广泛的泛化能力。SFT弥合了预训练期间编码的广泛语言知识与目标应用的细微需求之间的差距。预训练的LLMs通过接触大量语料库,获得了一般的语言模式,减少了对大量领域特定数据进行微调的依赖。模型选择至关重要:较小的模型如 T5 在资源受限且数据集有限的环境中表现出色,而较大的模型如 GPT-4 则利用其卓越的容量,在复杂且数据丰富的任务中表现出色。
构建高质量的SFT数据集是一个多方面的过程,对于微调的成功至关重要。
SFT 数据集通常结构化为 , 其中 是一条指令, 是其对应的实例。这种配对使大语言模型(LLM)能够识别任务特定的模式并生成相关输出。诸如 Self-Instruct 等方法通过合成新的指令-输出对来丰富多样性,并使用如 ROUGE-L 等指标过滤重复项以保持多样性。
筛选确保只有高质量的指令-实例对保留在最终的数据集中。使用筛选函数 来评估每对 的质量,从而得到一个精选子集 :
其中 是用户定义的质量阈值。例如,指令跟随难度(Instruction Following Difficulty, IFD)度量量化了一条给定的指令如何有效地引导模型生成预期响应。IFD 函数表示为:
其中 表示指令, 是预期响应, 代表模型的学习参数。该度量通过比较在有无指令的情况下生成响应的可能性,提供了一个归一化的度量,表明指令在促进响应生成方面的有效性。未达到选定IFD阈值的指令-实例对将被排除在外,从而得到一个精炼的数据集 。
评估SFT数据集涉及选择一个高质量的子集 作为模型性能的基准。这个子集可以从精选数据集 中抽样,或从独立部分中派生以确保公正性。传统的SFT评估方法,如 FewShot GPT 和微调策略,资源密集型,而指令挖掘提供了一种更高效的替代方案。指令挖掘使用线性质量规则和一组度量来衡量数据集质量,如响应长度和平均奖励模型得分,以评估这些度量与整体数据集质量之间的相关性。
如图4所示,一旦数据集准备就绪,微调过程便从一个预训练的语言模型开始,该模型通常通过在大规模原始数据集上进行无监督或自监督预训练获得。此预训练阶段的目标是获取适用于各种任务的一般特征表示。随后,在微调阶段,使用特定任务的标注数据调整模型参数,使模型与给定应用的需求对齐。此阶段常用的优化目标函数是交叉嫡损失。对于一个具有 个样本和 个类别的分类任务,它可以表示为:
其中 是样本 在类别 中的真实标签,而 表示模型预测样本 属于类别 的概率。最小化这个损失函数促使模型更好地与真实标签对齐,从而提高在目标任务上的性能。
一个显著的例子是 BERT 模型,它在广泛的语料库(如Books Corpus和Wikipedia)上进行了广泛的预训练。在微调阶段,这些广泛表示通过使用特定任务的数据(例如,用于情感分析的IMDB数据集)进行细化,使BERT能够专门处理诸如情感分类和问答等任务。
全参数微调指的是调整预训练模型所有参数的过程,与LoRA 或Prefix-tuning 等参数高效方法形成对比,后者仅修改部分参数。全参数微调通常用于需要高精度的任务,例如医疗和法律领域,但其计算开销较大。例如,微调一个650亿参数的模型可能需要超过100 GB的GPU内存,这在资源受限的环境中构成了挑战。为了缓解这些约束,引入了LOMO 等内存优化技术,这些技术减少了梯度计算和优化器状态的内存占用。模型参数根据以下规则更新:
其中, 表示第 次迭代时的模型参数, 是学习率, 表示损失函数的梯度。内存优化技术包括混合精度训练和激活检查点,这些技术有助于减少内存需求,使大型模型能够在硬件资源有限的系统上进行微调。
从GPT-3到InstructGPT。 全参数微调的一个显著例子是从 GPT-3 到 InstructGPT 的过渡,其中使用设计用于指令跟随任务的数据集对模型的整个参数集进行了微调。这种方法能够实现最佳性能,但由于需要更新所有参数,因此计算成本较高。
自适应微调(Adaptive Fine-tuning)修改了预训练模型的行为,以更好地满足用户特定需求并处理更广泛的任务。这种方法引入了额外的线索来指导模型的输出生成,提供了一个灵活的框架来定制模型的响应。自适应微调中值得注意的方法包括指令微调和基于提示的微调,这两种方法通过引入任务特定的指导,显著增强了大语言模型的适应性。
指令微调是一种通过在专门构建的指令数据集上对基础大语言模型(LLM)进行微调来改进其性能的技术。这种方法显著提升了模型在各种任务和领域中的泛化能力,提高了其灵活性和准确性。如图5所示,该过程首先将现有的自然语言处理(NLP)数据集(例如,文本分类、翻译和摘要数据集)转换为包含任务描述、输入示例、预期输出和示例演示的自然语言指令。自动生成更多指令-输出对的技术,如Self-Instruct ,进一步增强了这些数据集的多样性,扩展了模型对更广泛任务的接触。微调过程调整模型的参数以适应这些特定任务的指令,从而生成一个在熟悉和先前未见过的任务中均表现出色的大语言模型。例如,Instruct GPT 和 GPT-4 在广泛的应用中展示了指令跟随能力的显著提升。
指令微调的有效性很大程度上取决于指令数据集的质量和广度。高质量的数据集应涵盖广泛的语言、领域和任务复杂性,以确保模型具有广泛的适用性。此外,指令的清晰性和组织性在使模型能够有效解释和执行任务方面发挥着关键作用。整合示例演示,包括思维链提示(Chain-of-Thought prompting)等技术,可以显著提高需要复杂推理的任务的性能。此外,在微调阶段确保任务分布的平衡是避免过拟合或因任务覆盖不平衡而导致模型性能下降的关键。比例任务采样或加权损失函数等技术有助于解决这些问题,确保每个任务在微调过程中做出公平的贡献。因此,通过精心构建和管理指令数据集,研究人员可以大大增强微调后大语言模型的泛化能力,使其在广泛的任务和领域中表现出色。
前缀调优(Prefix-tuning) 是一种参数高效的微调方法,涉及在语言模型的每个 Transformer 层中添加一系列可训练的前缀标记(连续向量),同时保持核心模型参数不变。如图 6(a) 所示,这些前缀向量是任务特定的,并充当虚拟标记嵌入。为了优化前缀向量,使用了一种重新参数化技巧,即学习一个小的多层感知器(MLP)函数,将一个较小的矩阵映射到前缀参数,而不是直接优化前缀向量。这种方法已被证明可以稳定训练过程。一旦前缀向量被优化,映射函数将被丢弃,只保留导出的前缀向量以增强任务特定性能。
通过在输入序列前附加一个已学习的连续提示并利用分层提示,模型的行为可以被引导到任务特定的输出,而无需对整个模型进行微调。由于只有前缀参数被调整,这导致了一种更参数高效的方法。在此基础上,P-Tuning v2 在 Transformer 架构中引入了分层提示向量,专门用于自然语言理解任务。该方法还利用多任务学习来优化跨任务的共享提示,提高不同参数规模下的模型性能。前缀调优在促进大型语言模型快速高效地适应特定任务方面的潜力显而易见,使其成为需要灵活性和效率的应用中的一个有吸引力的策略。
提示调优(Prompt-Tuning)是一种旨在通过优化输入层的可训练向量而非修改模型内部参数来高效适应大规模语言模型的方法。如图6(b)所示,该技术在离散提示方法的基础上引入了软提示标记,这些标记可以以无限制格式或前缀的形式进行结构化。这些学习到的提示嵌入与输入文本嵌入结合后被模型处理,从而在保持预训练权重不变的情况下引导模型的输出。两种代表性的提示调优实现是 P-tuning 和标准prompt-tuning。
Ptuning 使用灵活的方法结合上下文、提示和目标标记,使其适用于理解和生成任务。该方法通过双向 LSTM 架构增强软提示表示的学习。相比之下,标准提示调优采用了更简单的设计,其中前缀提示附加到输入中,并且仅在训练过程中根据任务特定的监督更新提示嵌入。
研究表明,提示调优在许多任务上可以达到与全参数微调相当的性能,同时需要的可训练参数显著减少。然而,其成功与底层语言模型的容量密切相关,因为提示调优仅修改输入层的一小部分参数。在此基础上,诸如 P-Tuning v2 等新方法已经证明,提示调优策略可以在各种模型大小上有效扩展,处理以前认为需要全微调的复杂任务。这些发现确立了提示调优作为传统微调的高度高效替代方案,提供相当的性能并降低计算和内存成本。
强化微调(Reinforcement Fine-Tuning, ReFT)是一种先进的技术,它将强化学习(RL)与监督微调(SFT)相结合,以增强模型解决复杂动态问题的能力。与传统的 SFT 不同,后者通常为每个问题使用单个链式思维(CoT)注释,而 ReFT 使模型能够探索多个有效的推理路径,从而提高其泛化能力和问题解决技能。ReFT 过程从标准的 SFT 阶段开始,在此阶段,模型通过监督注释在标注数据上进行初步训练,以学习基本的任务解决能力。经过这一初始微调后,模型使用强化学习算法(如近端策略优化(Proximal Policy Optimization, PPO))进行进一步的精炼。在强化阶段,模型为每个问题生成多个 CoT 注释,探索不同的潜在推理路径。这些生成的路径通过将模型预测的答案与真实答案进行比较来评估,正确输出会获得奖励,错误输出则受到惩罚。这一迭代过程促使模型调整其策略,最终改进其推理策略。
如图 7 所示,ReFT 过程分为两个阶段。上部表示 SFT 阶段,模型在训练数据上迭代,通过多个周期学习每个问题的正确 CoT 注释。下部引入了 ReFT 阶段:从 SFT 训练的模型开始,模型根据当前策略生成替代的 CoT 注释 ,并将其预测的答案 与真实答案 进行比较。正确答案会获得正向奖励,错误答案则受到负向奖励,这促使模型提高性能。这些奖励信号随后用于通过强化学习更新模型的策略,增强其生成准确和多样化的 CoT 注释的能力。
最近的研究表明,ReFT 显著优于传统的 SFT 方法。此外,集成推理时间策略(如多数投票和重新排序)可以进一步提升性能,使模型在训练后能够优化其输出。值得注意的是,ReFT 在不增加或增强训练数据的情况下实现了这些改进,仅从 SFT 阶段使用的现有数据集中学习。这突显了模型的优越泛化能力,因为它能够更高效和有效地从可用数据中学习。
在大语言模型中实现对齐涉及引导模型输出以符合人类期望和偏好,特别是在安全关键或面向用户的应用中。本章讨论了实现对齐的三种主要范式:基于人类反馈的强化学习(§4.1),该方法使用人工标注的数据作为奖励信号;基于人工智能反馈的强化学习(§4.2),该方法利用人工智能生成的反馈来解决可扩展性问题;以及直接偏好优化(§4.3),该方法直接从成对的人类偏好数据中学习,而无需显式的奖励模型。每种范式在其追求稳健对齐的过程中都提供了不同的优势、挑战和权衡。这些及相关方法的简要比较总结在表2中。
表2:大语言模型对齐方法的比较概述(2022–2024)。该表评估了八项指标下的主要对齐技术:RM1(显式或隐式奖励模型)、RM2(点奖励或偏好概率模型)、RM3(响应级或令牌级奖励)、RM4(正或负奖励模型)、F(反馈类型:人类或AI)、RL1(参考模型或无参考模型的强化学习)、RL2(在线策略或离线策略的强化学习)和O(在线/迭代或离线/非迭代优化)。
监督微调(Supervised Fine-Tuning, SFT) 一直作为指导大语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,标注数据的多样性和质量可能参差不齐,且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。为此,基于强化学习(Reinforcement Learning, RL)的微调方法被提出以解决这些不足。在RL方法中,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 作为最早且最具影响力的RL后训练对齐方法之一脱颖而出。
如图8所示,RLHF首先收集以偏好标签或奖励信号形式的人类反馈,然后利用这些信息训练奖励模型。在该奖励模型的引导下,策略通过迭代调整以更好地匹配人类偏好。与SFT相比,RLHF融入了连续的、偏好驱动的更新,从而实现更强的对齐效果。值得注意的是,现代大语言模型如 GPT-4、Claude 和 Gemini 均受益于这些机制,展示了在指令遵循、事实一致性及用户相关性方面的改进。以下,我们将讨论RLHF的主要组成部分,包括反馈机制、奖励建模及策略学习策略。
人类反馈是基于人类反馈的强化学习(RLHF)的核心,它向奖励模型传达用户偏好,并指导策略更新。本小节采用了文献[124]的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与程度和明确性等维度上的分布。每种反馈模式对模型优化的不同方面都有贡献,提供了不同水平的可解释性、可扩展性和噪声容忍度。
主要反馈。 这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如,批评(Critique)专注于对代理行为的显式人类评估,通常通过二元或多标签注释来减轻噪声。比较(Comparisons)允许评估器比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但也可能导致因果混淆。时间反馈(Inter-Temporal Feedback)通过在不同时间步长提供判断来细化轨迹评估,而代理奖励(Proxy Rewards)则结合近似奖励函数,引导模型朝向用户定义的目标。社会行为(Social Behavior)利用隐含线索(如面部表情)来使代理目标与用户情感对齐。改进(Improvements)强调实时人类干预以逐步完善策略。最后,自然语言反馈(Natural Language Feedback)利用文本信息传达偏好和改进建议。
补充反馈。 除了主要反馈之外,还有两类进一步加强奖励建模过程。紧急停止(Emergency stops, e-stops)允许人类在代理行为中进行干预,通过停止其轨迹而不提供替代方案来防止不良行为。这种反馈的特点是隐含参与和单一的防止不良行为的焦点。相比之下,重要性标签(Importance labels)指示特定观察对于实现目标的重要性,提供不直接改变行为的显式反馈。这种反馈因上下文而异,作为补充输入,加强奖励模型的整体学习过程。
表示特定反馈。 某些反馈类型主要增强表示学习,而不是直接塑造奖励函数。特征轨迹(Feature Traces)提示人类操作员展示给定特征的单调变化,从而实现特征集的动态扩展。相似性查询(Similarity Queries)比较轨迹的三元组,通过轨迹空间中的成对距离引导表示学习。通过利用这些表示特定的反馈形式,RLHF可以实现对新任务和上下文的更鲁棒泛化。
真正的奖励函数 通常未知,因此需要基于人类提供的偏好构建一个可学习的奖励模型 。该模型预测候选输出 在给定输入 下与人类期望的一致程度。为了获得训练数据以训练 ,人类评估者根据输出对的相对适宜性进行比较或标注,模型通常使用这些比较上的交叉嫡损失进行训练。为了防止策略 过度偏离初始模型 ,引入了一个由超参数 控制的惩罚项到奖励函数中:
其中 是微调后的策略 在给定输入 时生成输出 的概率,而 是在初始模型 下相应的概率。这一项确保了在 适应人类反馈的同时,仍受到 中捕获的先验知识的约束。
评估奖励函数 至关重要,因为它直接影响学习效果和策略性能。准确评估此函数有助于识别适合将模型输出与人类偏好对齐的奖励结构。然而,在安全敏感领域,由于在线交互的风险、偏差以及对真实奖励的需求,标准的滚动方法和离策略评估可能不可行。为了解决这些挑战,通常采用两种主要方法:
距离函数。 最近的研究集中在考虑潜在变换(如潜在塑形)的奖励评估距离函数上。例如,EPIC 测量在各种变换下的奖励函数等价性,而 DARD 通过细化规范化确保评估基于可行的转换。EPIC 类似的距离通过允许规范化、标准化和度量函数的变化来推广 EPIC 的方法论,而 STARC 保留了 EPIC 的理论性质,同时提供了额外的灵活性。
可视化和人工检查。 其他方法依赖于解释性和精心策划的数据集来评估学习到的奖励函数的有效性。PRFI 使用预处理步骤简化奖励函数,同时保持等价性,从而增强其透明度。与此同时,CONVEXDA 和 REWARDFUSION 提出了设计用于测试奖励模型对提示语义变化响应一致性的数据集。这些技术共同促进了对奖励函数更可靠的评估,强化了大语言模型与人类偏好的对齐。
强化学习中的人类反馈策略学习(Reinforcement Learning with Human Feedback, RLHF),如图9所示,涉及通过在线和离线环境中的真人反馈优化策略。
在在线RLHF中,系统实时收集人类对新生成模型轨迹的偏好。DPS 等算法使用贝叶斯更新来管理对抗过程,而PPS和PEPS 将动态规划和多臂赌博机思想结合以改进策略行为。在LPbRL 中,特征嵌入捕捉奖励结构的变化,PbOP 集成最小二乘估计方法,用于转换动态和偏好信号的估计。最近,PARL 通过将反馈获取视为策略优化的组成部分,提高了数据收集效率。
离线学习。 在离线RLHF中,使用先前收集的带有偏好标签的轨迹来学习或优化策略。例如,文献 [151] 研究了基于成对比较数据的悲观最大似然估计策略学习,并建立了性能界限。FREEHAND 和DCPPO 等扩展方法适用于未知偏好模型,探讨了离线数据覆盖范围与策略泛化之间的相互作用。此外,文献 [154] 解决了成对比较中Boltzmann模型的过拟合问题,而DCPPO 进一步研究了动态离散选择模型,以提高反馈效率。
在线与离线学习的融合。 混合方法结合了离线预训练和在线偏好聚合,充分利用已收集的数据,同时仍能纳入实时更新。PFERL 采用两阶段方法以减少人类查询次数,而PERL 探索了乐观最小二乘策略以进行主动探索。Dueling RL 及其扩展(如PRPRL 中的REGIME)通过仔细划分数据获取与反馈收集,减少了人类标注需求,从而优化了样本效率、标注成本和策略性能之间的权衡。
强化学习与人工智能反馈(Reinforcement Learning with AI Feedback, RLAIF)扩展了RLHF范式,通过使用大语言模型(LLMs)生成反馈信号。这种方法可以补充或替代人类反馈,在人类标注稀缺、昂贵或不一致的任务中提供更具可扩展性和成本效益的偏好数据。
在大规模应用强化学习与人类反馈(RLHF)时,一个主要挑战在于其依赖于人工生成的偏好标签,这需要大量资源来收集、整理和标注数据。数据标注过程既耗时又昂贵,且人工评估者可能会引入不一致性,从而使得在整个模型输出中实现大规模、一致的标注变得复杂。这些限制显著影响了RLHF的可扩展性和效率。为了解决这些挑战,[105] 提出了强化学习与人工智能反馈(RLAIF),该方法结合了人类反馈和人工智能生成的反馈,通过强化学习训练模型。通过利用大语言模型(LLM)作为反馈来源,RLAIF减少了对人工标注者的依赖,提供了一种传统RLHF的可行替代方案。这种方法实现了连续的反馈生成,显著增强了可扩展性,同时保留了人类指导下的模型优化灵活性。
如图10所示,RLHF和RLAIF之间的关键区别在于反馈来源:RLHF依赖于人工生成的偏好,而RLAIF使用人工智能生成的反馈来引导策略更新。实证研究,例如[157]的研究表明,RLAIF可以达到与RLHF相当甚至更优的性能,经由人工评分员评估。值得注意的是,RLAIF不仅超越了传统的监督微调基线,而且在偏好标签器规模与策略模型相同的情况下实现了这一点,突显了该方法的高效性。
RLAIF 训练流程遵循几个关键阶段,在这些阶段中,利用 AI 生成的反馈迭代地改进模型的行为。该流程促进了 LLM 输出与人类期望的对齐,并且能够扩展到各种任务,如 [108] 所详述。这些阶段如下:
在这一阶段,AI 系统根据预定义的标准生成反馈,这些标准可能包括特定任务的指标、响应的正确性或模型输出的适当性。与需要解释和手动标注的人类反馈不同,AI 反馈可以在广泛的模型输出中一致生成。这一特性使得 AI 反馈可以持续提供,显著扩展了反馈循环。
随后,使用 AI 生成的反馈来训练或优化奖励模型。该模型将输入-输出对映射到相应的奖励,使模型的输出与反馈所指示的期望结果对齐。传统的基于人类反馈的强化学习 (RLHF) 依赖于直接的人类反馈来评估输出,而 RLAIF 则利用 AI 生成的标签,尽管这可能会引入一致性问题和偏见,但在可扩展性和独立于人力资源方面具有优势。
最后阶段涉及根据前一步骤中训练的奖励模型更新模型的策略。使用强化学习算法调整模型的参数,优化策略以在多种任务中最大化累积奖励。这一过程是迭代的,奖励模型指导模型的输出向更高的目标对齐度发展。
RLAIF 的主要优势在于其能够在不需持续人类干预的情况下扩展反馈循环。通过用 AI 生成的反馈替代人类反馈,RLAIF 促进了 LLM 在多个任务中的持续改进,缓解了人类标注工作带来的瓶颈。
如前所述,基于人类反馈的强化学习(RLHF) 通常包括三个阶段:监督微调(Supervised Fine-Tuning)、奖励建模和强化学习(通常通过近端策略优化(PPO)实现)。尽管其效果显著,RLHF 可能会变得复杂且不稳定,特别是在拟合奖励模型并用于微调大型语言模型的阶段。难点在于创建一个能够准确反映人类偏好的奖励模型,以及在优化这一估计奖励的同时,使语言模型保持接近原始模型的挑战。为了解决这些问题,直接偏好优化(Direct Preference Optimization, DPO) 被引入作为一种更稳定且计算效率更高的替代方案。DPO 通过直接将奖励函数与最优策略联系起来,简化了奖励优化过程。它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题,从而避免了奖励模型拟合的复杂性和布拉德利-特里模型(Bradley-Terry model) 的依赖性。
强化学习与人类反馈(RLHF)涉及训练一个奖励模型(RM)和通过强化学习微调一个语言模型(LM)。直接偏好优化(DPO)简化了这一过程,通过直接使用人类偏好数据训练LM,隐式地在策略中捕捉奖励模型。
DPO从已建立的KL正则化奖励最大化框架开始,如下目标函数所示:
其中 表示奖励函数, 是一个控制接近参考策略 程度的系数, 表示Kullback-Leibler散度。这里, 表示从数据分布中抽取的输入, 表示从策略中采样的输出。
在适当的假设下,方程 (14) 的解以玻尔兹曼分布的形式给出:
其中配分函数
作为归一化项,确保 仍然是一个有效的概率分布(即其概率之和为1)。
取方程 (15) 两边的自然对数,可以将奖励 与最优策略 联系起来。得到:
其中 是一个不影响奖励成对比较的常数。如果已知最优策略 ,则可以确定真实奖励 ,最大为这个常数。
根据布拉德利-特里模型,两个输出 和 之间的人类偏好由它们的奖励值差异决定。偏好 而非 的概率为
将方程 (17) 代入方程 (18),我们得到最终的偏好模型:
该表达式将成对的人类偏好概率与最优策略 和参考策略 的比值联系起来。
DPO通过直接从偏好数据中学习策略,避免了显式的奖励建模。给定一组偏好三元组 ,其中 是首选输出, 是次选输出,对于提示 最大化观察到的偏好的似然。形式上,DPO采用以下目标函数:
其中 是sigmoid函数, 表示 和参考策略 之间的重参数化奖励差异。通过最大化 ,策略 在不需单独奖励模型的情况下与人类偏好对齐。由于DPO目标继承了来自RLHF的KL正则化公式,它保留了重要的理论保证一一例如,在明确定义的偏好假设下的一致性一一同时将训练过程统一为一个阶段。因此,DPO为使语言模型与人类评估对齐提供了更直接的路径,减少了系统复杂性并提高了训练稳定性。
DPO框架建立在两个核心模型之上:参考策略 和目标策略 。参考策略通常是一个预先训练并经过监督微调的语言模型,在整个训练过程中保持不变。相比之下,目标策略从 初始化,并通过基于偏好的反馈进行迭代更新,从而提高与人类判断的一致性。图11展示了这一整体流程。
DPO 依赖于一个精心策划的偏好数据集,该数据集通过从 中为每个提示 抽取多个候选响应而获得。人类标注者随后根据连贯性、相关性和清晰度等标准对这些响应进行比较或排名。由此产生的偏好标签作为优化 的核心训练信号。
目标策略通过一系列旨在最小化损失 的梯度更新进行精炼。具体步骤如下:1)生成: 为每个提示 生成候选输出。2)标注:人类标注者比较生成的输出,确定它们的相对偏好。3)优化:利用这些成对偏好, 进行迭代更新,以更好地模仿人类偏好的输出。在整个过程中, 保持不变,提供一个稳定的基线,以便衡量改进。
选择一个稳健的参考策略通常是有效初始化DPO的关键。监督微调(SFT)通常会产生一个表现良好的 基线,确保后续基于偏好的更新可以集中在精炼而非基本技能的获取上。此外,偏好数据必须足够多样,以捕捉用户期望的变化,从而促进模型的适应性并防止过度拟合到狭义定义的任务中。
多种DPO变体已经出现,以应对特定的对齐挑战并优化文本生成的不同方面。表2概述了这些方法,范围从词元级生成优化到控制冗长性和处理列表或负面偏好。
词元级和迭代DPO策略有助于更精细地或连续地与人类偏好对齐。将问题重新表述为一个强盗问题,词元级DPO 采用了由 定义的马尔可夫决策过程(Markov Decision Process, MDP)。这种方法缓解了诸如对不受欢迎的词元产生过高的KL散度等问题。TDPO 应用了顺序前向KL散度而不是逆向KL散度,从而在文本生成中同时提高了对齐性和多样性保持。迭代DPO 采用多轮方法,通过重复的偏好评估不断优化输出,通常由模型本身执行。成对厌恶优化(Pairwise Cringe Optimization, PCO) 将二元反馈扩展到成对设置,使用软边界来平衡探索和利用。逐步DPO (Step-wise DPO) 将偏好数据集划分为多个部分,并应用迭代更新,每一轮更新后的策略作为下一轮的基线。
一些DPO变体旨在管理冗长性并减少对固定参考策略的需求。R-DPO 通过在目标函数中引入正则化项来惩罚输出长度,解决了过于冗长或冗余的响应问题。SimPO 通过规范化响应长度并简化损失函数来处理期望和不期望的输出,消除了对参考策略的需求。RLOO 利用REINFORCE算法而无需训练价值模型,大幅减少了计算开销。它将整个响应视为单个动作,并从稀疏奖励中学习,相比传统的基于PPO的方法简化了实现。
与将偏好数据限制为成对比较不同,列表DPO方法在一组输出上进行优化。列表偏好优化(Listwise Preference Optimization, LiPO) 直接在候选响应的排名列表上应用排序学习技术,相对于重复的成对比较提高了效率。RRHF 将偏好对齐整合到SFT中,消除了对单独参考模型的需求。PRO 将列表偏好分解为更简单的二元任务,简化了SFT期间的对齐。
某些任务需要从不期望或有害的输出中学习:否定负例(Negating Negatives, NN) 丢弃积极响应并最大化与较少偏好的输出之间的差异。负面偏好优化(Negative Preference Optimization, NPO) 对负面偏好应用梯度上升,有效减少了有害输出并缓解了灾难性崩溃。
推理是使大语言模型(LLM)能够处理涉及多步骤逻辑、复杂推理和复杂决策任务的核心支柱。本章探讨了两种增强模型推理能力的核心技术:自精炼推理(Self-Refine for Reasoning)(§5.1),该方法指导模型自主检测并修正其推理步骤中的错误;以及强化学习推理(Reinforcement Learning for Reasoning)(§5.2),该方法通过基于奖励的优化来提高模型思维链的一致性和深度。这些方法共同使得模型在长期决策、逻辑证明、数学推理等具有挑战性的任务中能够更加稳健地处理。
推理仍然是优化大语言模型(LLMs)以应对需要复杂逻辑推理和情境依赖决策任务的核心挑战。在这一背景下,自精炼(self-refine)作为一种强大的机制,能够在文本生成过程中或之后迭代地识别和纠正错误,显著提高推理深度和整体可靠性。如图12所示,自精炼方法可以分为四类:内在自精炼(Intrinsic Self-refine),依赖于模型内部的推理循环;外在自精炼(External Self-refine),结合外部反馈资源;微调内在自精炼(Fine-tuned Intrinsic Self-refine),基于自动生成的校正迭代更新模型的推理过程;以及微调外在自精炼(Fine-tuned External Self-refine),利用外部信号和微调以更适应性、长期的方式改进推理。表4进一步展示了每种类别如何在各种任务中增强LLM的推理能力。
内在自精炼方法侧重于使模型本身能够检测并内部修复错误,而无需借助外部工具。例如,RCI Prompting [190] 只在检测到矛盾或错误时触发校正,避免对轻微不确定性做出过度反应。CAI Revisions [105] 纠正不希望的输出(例如,冒犯性文本),同时教导模型自我调节其响应。同样,Self-Refine [164] 通过从低质量提示过渡到高保真指令来改进中间逻辑,提高一致性。CoVe [169] 通过将多答案问题分解为子任务,并分别验证每个子任务,确保整个推理链的精确性和一致性。弱到强泛化(Weak-to-Strong Generalization, W2SG)方法利用高级算法,使强大的学生模型能够从较弱的教师模型产生的嘈杂演示中有效学习 [191]。该框架已在不同领域看到了几个关键的发展和应用。最近的研究通过各种创新增强了W2SG。例如,集成学习技术已成功应用于提高W2SG方法的鲁棒性和有效性 [192]。[193] 采用弱到强外推法来增强LLM的对齐。
这些方法涉及外部反馈源或计算工具来指导和纠正模型的推理。CRITIC [177] 系统地检查逐步输出,提高复杂推理任务的可靠性。Reflexion [172] 和 Self-Debug [173] 分别将生成的答案与参考解决方案或少量示例进行比较,迭代地改进逻辑。像 FLARE [170] 和 Logic-LM [171] 这样的技术通过引用外部文档或符号求解器,从而减少逻辑错误。RARR [165] 和 SelfEvolve [166] 显示,验证中间状态(例如,编译器消息或相关知识来源)是早期修剪错误路径并引导模型向正确解决方案发展的强大方法。文献 [194] 提出了一种基于人类反馈的迭代偏好学习方法,包括在线设置下的直接偏好优化(DPO)算法的迭代版本,以及离线场景下的多步拒绝采样策略。PIT [195] 从人类偏好数据中隐式学习改进目标。
通过专门针对内部修订对基础模型进行微调,这些方法系统地加强了LLM的自我校正循环。Self-Critique [161] 旨在通过自我审查改进总结,而 SelFee [174] 使用迭代反馈循环以确保更高的逻辑一致性。Volcano [180] 通过在LLM架构中微调一个专用校正模块来减少多模态幻觉,RL4F [167] 利用基于强化学习的批评循环,在需要深入推理的基准测试中平均提高了 10% 的性能。REFINER [176] 同样专注于中间推理路径,而不改变模型的原始生成过程,表明通过训练模型仔细重新检查其部分输出,可以实现一致的改进。此外,从易到难泛化的概念作为W2SG的一个有前途的变体,已经出现,其中模型最初在易于验证的示例上进行训练,然后处理更复杂的任务 [196]。一种值得注意的实现方法是在人类可验证的示例上训练一个强大的奖励模型,然后引导更强大的模型处理具有挑战性的任务 [197]。此外,W2SG的有效性超越了LLM,在计算机视觉任务中也有成功的应用[198]。
在需要长期改进的情况下,模型参数通过外部反馈机制进行更新。例如,Self-Edit [168] 基于执行结果重新生成代码输出,从而逐步提高正确性。Baldur [163] 通过添加或修改上下文来加强定理证明,而 CodeRL [162] 利用基于测试的批评来验证程序合成任务的功能准确性。这些技术共同表明,将外部资源与有针对性的微调相结合,可以促进模型整体推理性能的可靠、逐步提升。
在第5.1小节中,我们探讨了自精炼方法,这是一种广泛使用的方法,通过局部调优和优化来改进大语言模型的推理能力。这种技术通常应用于单步任务或输出精炼,例如文本生成和问答,能够提供快速的推理增益。然而,它在处理需要多步逻辑的复杂长期推理任务时显得力不从心。OpenAI发布的o1系列[41]突显了强化学习(Reinforcement Learning, RL)作为一种强大的替代方案,通过基于奖励的反馈来训练大语言模型进行高级推理,优化内部的长链因果关系(Chain of Thought, CoT)。这在数学证明和战略规划等复杂任务中显著提升了性能。o1的成功激发了对大规模强化学习的研究,诸如QwQ-32B-Preview [199]在数学和编程方面表现出色,而DeepSeekR1 [28]则与o1的能力相当。本小节将考察强化学习在增强推理能力中的作用,重点关注领先的开源模型DeepSeek-R1和DeepSeek-R1-Zero。
在大语言模型(LLMs)中的推理可以被优雅地建模为一个顺序决策过程,在该过程中,模型针对输入查询 迭代地构建一系列中间步骤 ,以优化到达正确最终答案的可能性。这种概念化将推理转化为一个适合强化学习(RL)的结构化框架,特别是通过马尔可夫决策过程(MDP)的视角,记为 。MDP封装了状态、动作、转换、奖励和时间折现之间的动态相互作用,为训练LLMs处理复杂推理任务提供了坚实的数学基础。通过将推理视为一系列有意的选择,这种方法使模型能够系统地探索并精炼其逻辑路径,类似于游戏或机器人领域中的决策制定,但适应了语言和概念推理的独特挑战。最终目标是推导出一个最优策略 ,以最大化预期累积奖励,表示为 ,利用RL技术如近端策略优化(Proximal Policy Optimization,PPO)或优势行动者-评论家(Advantage Actor-Critic,A2C)来根据环境反馈迭代地增强推理能力。
状态空间 构成了这个MDP的骨干,每个状态 代表了在时间步 处的当前推理轨迹,这是一个由语言和结构元素组成的丰富复合体,对推理过程至关重要。具体而言, 包括初始查询 、先前的推理步骤序列 以及编码逻辑依赖和中间结论的内部记忆表示,例如部分解决方案或推断的关系。随着推理的展开,这种状态会动态演变,通过整合生成步骤中明确表述的路径和从上下文中提炼的潜在知识,反映了思维的进展。例如,在数学证明中, 可能包括问题陈述、先前推导的方程和适用定理的记忆,使模型能够在步骤之间保持连贯性。这种多方面的状态表示确保了LLM能够自适应地跟踪其推理上下文,这是处理需要持续逻辑连续性的任务(如多步骤问题解决或文本生成中的叙事连贯性)的前提。
动作空间 定义了每个步骤中可能的决策范围,其中动作 对应于选择下一个推理步骤,为推进推理过程提供了灵活的工具包。这些动作可能包括生成自然语言中的一个词或短语来表达推理段落、应用预定义的逻辑或数学变换(如代数简化)、从知识库中选择相关定理或规则以扩展推理链,或在达到结论性答案时停止过程。动作空间的性质因任务而异:在形式证明中选择有限逻辑规则集时可能是离散的,而在开放性推理场景中产生自由形式文本时则是连续的,反映了LLM的生成灵活性。这种双重性使模型能够在结构化领域(如符号逻辑)和非结构化领域(如常识推理)之间导航,同时适应任务需求,保持向解决方案的连贯轨迹。
转移动力学由函数 封装,决定了每次动作后状态如何演变,界定了推理轨迹在MDP框架内的进展。与传统RL环境中由于外部变量(如环境噪声)引起的随机性不同,LLMs中的推理转移主要是确定性的,由模型的自回归输出或结构化推理规则驱动,例如在证明中应用演绎步骤。然而,不确定性源于模型固有的局限性——如不完美的知识、模糊的中间状态或文本生成中的概率采样——引入了RL必须应对的变化。对于自回归LLMs,转移遵循可预测的序列生成过程,但错误累积或解释分歧的可能性需要稳健的设计以确保可靠性。这种确定性但不确定的动力学强调了需要适应性策略,以在从精确数学推导到细致入微的叙事构造的各种情境中稳定推理。
奖励函数 R(s_{t},a_{t}) 作为MDP的评估核心,提供了对每个推理步骤质量的关键反馈,以指导模型的学习过程。与具有显式奖励(如游戏中得分)的传统RL任务不同,推理奖励必须精心设计以平衡稀疏性和密集性,反映任务的复杂性和目标。稀疏奖励,如仅在达到正确最终答案时分配值,提供简单性但可能在多步骤情景中延迟学习;而密集奖励,如评估逐步正确性、逻辑有效性或与人类偏好的一致性,则提供详细的指导,如§5.2.2所述。这种灵活性使奖励函数能够适应多样化的推理需求——无论是奖励证明中有效推理规则的应用还是叙事段落的一致性——确保模型接收到有意义的信号,以在其即时和扩展推理范围内精炼其策略。
一
这一框架使得可以应用强化学习技术,如近端策略优化(PPO)或优势行动者-评论家 (A2C),通过根据推理环境的反馈迭代调整策略 来精炼LLM的推理能力。
与具有明确奖励(如游戏得分)的传统强化学习任务不同,大型语言模型(LLM)中的推理需要结构化的奖励设计,以反映正确性、效率和信息量。常见的方法包括:
大规模强化学习作为提升大型语言模型(LLM)推理能力的一种变革性后训练范式,已经崭露头角。这一方法将重点从传统的监督微调(SFT)转向动态、自我演化的优化策略。通过利用广泛的计算框架和基于奖励的迭代反馈,该方法能够直接精炼基础模型,无需预先标注的数据集,从而实现复杂推理技能的自主发展。通过整合大规模强化学习,LLMs可以解决复杂的多步推理任务(例如数学问题求解、逻辑演绎和战略规划),而传统SFT由于依赖静态、人工策划的数据往往难以胜任这些任务[45]。DeepSeek-R1 模型是这一范式的典型代表,它采用了先进的强化学习技术,在优化资源效率的同时实现了顶级的推理性能,如图13所示。本小节概述了支撑 DeepSeek-R1 成功的关键方法,包括新颖的优化算法、自适应探索和轨迹管理,这些共同重新定义了强化学习驱动的LLM推理潜力。
DeepSeek-R1-Zero 模型利用了一种复杂的近端策略优化(PPO)变体,称为组相对策略优化(GRPO),以减轻传统强化学习训练中对大规模计算和资源的需求。与依赖于广泛批评网络的标准PPO不同,GRPO采用基于组的基线估计来简化优化过程,显著减少训练开销,同时保持策略更新的稳健性。这种效率使得在资源受限系统上部署大规模强化学习成为可能,促进跨长时间段的推理策略迭代优化。通过在可控计算范围内优化策略,GRPO使 DeepSeek-R1-Zero 成为增强推理能力的可扩展解决方案,如图13所示,使其成为当代强化学习驱动推理研究的基石。
DeepSeek-R1-Zero 展现了大规模强化学习在不依赖传统SFT作为初始步骤的情况下提升LLM推理能力的巨大潜力,而是采用纯强化学习驱动的自我演化范式。这种方法使模型能够通过奖励反馈迭代地优化其内部链式思维(CoT),从而自主发展复杂的推理技能,避免了SFT通常需要的预标注数据集。结果是在复杂的多步推理任务(例如数学问题求解和逻辑推导)中表现出显著的性能提升,展示了强化学习从基础模型中解锁高级推理能力的能力。作为最强大的开源推理模型之一,DeepSeek-R1-Zero 的成功证明了冷启动强化学习策略的可行性,提供了一种资源高效的替代传统训练管道的方法,同时达到了与顶级基准相当的水平。
为了引导轨迹 上的推理,DeepSeek-R1采用了一个分步奖励模型 ,在每个时间步提供详细的反馈,定义为 ,其中 包含带有步骤级正确性标签的人工标注CoT序列。这种密集的奖励结构与稀疏的序列末尾奖励形成对比,通过提供即时、可操作的关于单个推理步骤质量的见解,使模型能够精确地调整其策略。通过利用专家策划的数据,奖励模型确保反馈与人类推理标准一致,促进在扩展推理链中的连贯性和准确性,这是处理需要长时间逻辑合成的任务的关键特征。
DeepSeek-R1 通过集成自适应探索机制来增强策略优化,其目标函数如下:
其中熵项 由一个自适应系数 调制,根据轨迹上的奖励方差动态调整。这种方法平衡了探索和利用,鼓励模型在训练早期探索多样化的推理路径,随着方差减小逐渐收敛到最优策略,从而在推理优化中提高鲁棒性和效率。
为了在推理过程中优化计算效率,DeepSeek-R1 实现了一个双注意力批评器 ,评估每个状态的局部步骤评估和全局轨迹上下文。当 时,剪枝低价值的推理路径,集中资源于有前景的轨迹。这一机制减少了无效探索,加速了收玫,并确保模型优先考虑高质量的推理序列,从而在其复杂推理任务中表现出色。
DeepSeek-R1-Zero 进一步推进了强化学习(RL)的应用,通过采用冷启动方法,放弃了监督微调(SFT),完全依赖于从未经训练的基础模型进行大规模RL。这种自我进化策略通过迭代反馈来优化推理,生成强大的链式思维(CoT)序列,而无需依赖预标注数据。通过直接在推理任务上进行训练,DeepSeek-R1-Zero 展示了RL的灵活性,其性能可与使用SFT初始化的模型(如其DeepSeek-R1对等模型)相媲美甚至超越。这种方法不仅减少了对大量标注数据集的依赖,还展示了RL自主开发复杂推理能力的潜力,为未来的大型语言模型(LLM)发展提供了一个可扩展的范式。总体而言,RL为增强推理提供了一个有前景的框架,有效的奖励设计、策略优化(例如GRPO)和探索策略仍然是关键。未来的研究可以探索结合模仿学习或自监督目标的混合方法,以进一步完善这些能力,巩固RL在推进LLM推理中的作用。
基于前几章讨论的后训练优化技术,后训练效率特别针对大型语言模型(LLMs)在初始预训练后的操作性能。主要目标是优化关键部署指标(例如处理速度、内存使用和资源消耗),从而使 LLMs 更适用于实际应用。实现后训练效率的方法主要分为三类:模型压缩(§6.1),通过剪枝和量化等技术减少整体计算足迹;参数高效微调(§6.2),仅更新模型的一部分参数或采用专用模块,从而最小化再训练成本并加速对新任务的适应;以及知识蒸馏(§6.3),将较大预训练模型的知识转移到较小的模型上,使较小模型能够在减少资源需求的情况下实现相当的性能。
模型压缩包括一系列旨在减少大语言模型(LLMs)的大小和计算需求的技术,其中包括训练后量化、参数剪枝和低秩近似。
对于大语言模型(LLMs)而言,一种关键的压缩方法是量化,它将高精度数据类型 (30位浮点数)转换为低精度格式 (8位整数)[201]。这种转换可以表示为:
其中 表示量化常数,absmax 指的是元素的最大绝对值。函数 Round 将浮点数转换为整数。大语言模型的量化包括训练后量化(PTQ)和量化感知训练(QAT)。PTQ 使模型权重和激活在预训练后进行调整,使用一个小的校准数据集来优化计算效率和性能,如图14所示。此外,表5列出了几种主要的大语言模型量化方法的性能指标。
仅权重量化(WOQ)。WOQ 专注于压缩模型权重以提高效率。GPTQ [230] 使用逐层量化和最优大脑量化(Optimal Brain Quantization, OBQ),将权重减少到3或4位,以降低内存使用和处理时间。为了进一步提高效率,QuIP [203] 引入了不一致性处理,实现2位量化,提供更紧凑的表示。同样,AWQ [204] 和 OWQ [205] 通过保持对特别敏感权重的高精度,来最小化推理过程中的潜在精度损失。最后,SpQR [201] 结合稀疏量化和解码,实现在保持模型响应性的前提下高效地逐令牌推理。
权重-激活共量化(WAQ)。WAQ 将权重和激活集成在一起以提高效率。LLM.int8() [214] 通过精确存储解决激活异常值问题,并量化为8位,同时保持性能。Smooth Quant [218] 实现每通道缩放,将量化难题从激活转移到权重,实现无损结果。此外, OS+ [219] 通过通道级移位和缩放减轻异常值的影响,从而提高效率。OmniQuant [220] 将量化难题从激活转移到权重,并微调极端值的裁剪阈值。为了进一步提高效率,RPTQ [231] 对相似通道进行分组,确保量化参数的一致性。
键值缓存量化(KVQ)。键值缓存量化解决了大语言模型中输入令牌数量增加带来的内存优化挑战。KVQuant [224] 引入了针对长上下文长度高效推理的定制方法,保持性能的同时最小化损失。KIVI [228] 通过应用不同的量化策略来优化键和值缓存的内存节省,实现2位量化而无需微调。WKVQuant [225] 进一步改进了这一点,采用了二维量化策略和跨块正则化,实现了与权重-激活量化相当的内存效率,且性能几乎相同。
参数剪枝[232]是提高大语言模型(LLMs)效率的关键技术,通过最小化模型大小和复杂度而不牺牲精度。如图15所示,剪枝可以分为非结构化剪枝和结构化剪枝。
非结构化剪枝通过消除不重要的权重来增强大语言模型的稀疏性。已知的方法SparseGPT[230]通过一次剪枝实现了高达 60% 的稀疏性,同时保持最小的损失。Wanda[233]基于权重大小和激活值进行剪枝,无需重新训练。与此同时,SAMSP[234]利用Hessian矩阵的敏感性进行动态调整稀疏性,旨在最小化误差。DSnoT[235]通过使用迭代剪枝周期提高了性能。最后,Flash-LLM[236]从全局内存中检索稀疏权重,并在芯片上的缓冲区中重建为密集形式,以促进高效计算。
这种方法侧重于修剪大语言模型中的整个参数组,以提高硬件效率并简化结构。例如,LLM-runer[237]评估了LLaMA[65]的重要性,并使用LoRA[92]在剪枝后恢复精度。FLAP[238]使用结构化指标优化压缩,无需微调。此外,SliceGPT[239]使用PCA进行剪枝,同时保持效率。Sheared LLaMA[240]通过基于正则化的剪枝优化模型形状。LoRAPrune[241]通过基于LoRA重要性的迭代结构化剪枝提高效率。此外,Deja Vu[242]通过预测关键注意力头和MLP参数,使用上下文稀疏性减少延迟,同时保持精度。
低秩近似通过将权重矩阵 近似为较小的矩阵 和 ,即 ,从而压缩大语言模型。这种方法不仅减少了参数数量,还提高了操作效率。例如,TensorGPT[243]使用张量列车分解(Tensor-Train Decomposition, TTD)开发了更高效的嵌入格式。LoSparse[244]将低秩近似与剪枝结合,特别针对压缩连贯神经元组件。FWSVD[245]实现了一种加权SVD方法,而ASVD[246]提供了一种无训练的SVD替代方案,两者均针对训练后的效率。最后,SVD-LLM[247]通过建立奇异值与压缩损失之间的直接关系进一步改进了压缩效果。
参数高效微调(PEFT)的过程包括冻结完整的LLM主干,同时仅修改少量新增的参数。如图16所示,PEFT方法分为四类:加法PEFT、选择性PEFT、重参数化PEFT和混合PEFT。
加法式参数高效微调(Additive PEFT)在大型语言模型(LLM)中引入新的可训练模块,而不改变原有参数,从而实现在保留基础模型知识的同时进行特定任务的调整,这对于微调来说非常高效。
适配器(Adapters)。 适配器在变压器块内集成紧凑层,定义为:
其中, 是下投影矩阵, 是非线性激活函数, 是上投影矩阵。这里, 是隐藏层维度, 是瓶颈维度,通过减少复杂度同时保持性能。基于这种结构,Serial Adapter[248]在每个变压器块中引入了两个模块。Adapter Fusion[249]通过在 Add \&Norm 之后放置适配器来提高效率。Parallel Adapter(PA)[250]并行运行适配器和子层,而 CoDA[251]通过并行运行适配器和子层来优化性能。与 Adapter Fusion 不同,MerA [252]使用最优传输技术统一适配器的权重和激活。
软提示(Soft Prompt)。软提示通过在输入序列中添加可调向量而不是优化离散令牌来增强模型性能 [253]。这种方法的形式化表示为:
其中, 表示软提示令牌, 表示原始输入令牌。 和 分别是软提示和原始输入令牌的数量。Prefix Tuning[254]在变压器层之间引入可学习向量,并通过重新参数化和 P-Tuning v2[99]及 APT[255]进行优化。与此同时,Prompt Tuning[44]专注于初始嵌入层,以低计算成本优化大型模型。Xprompt[256]和 IDPG[257]简化了提示生成和插入。 SPoT[258]和 PTP[259]解决了稳定性和收敛速度问题,而 DePT[260]和 SMoP[261]通过优化提示结构减少了计算需求。
其他加法式方法。除了早期的技术,诸如(LA) [262]和 SSF[263]等方法通过引入最小但强大的模型参数调整来关注训练后的效率。自注意力和前馈网络(FFN)操作在数学上定义为:
其中, 表示哈达玛积,尺度向量 和 可以平滑地融入 和 的权重矩阵中。此外,IPA[264]使像 GPT-4 这样的大型语言模型与用户特定需求对齐。此外,它不需要对底层模型进行更改,因此在微调过程中保持了效率。
选择性参数高效微调(Selective PEFT)通过仅对参数的一个子集进行微调来提高效率,如图 16(b)所示。这涉及到将一个二元掩码 应用到参数 上,其中每个 表示 是否被选中进行微调。更新后的参数集表示为:
其中 leta 是学习率, 是损失函数的梯度。只有被选中的参数(即 )会被更新,从而在保持效果的同时减少计算成本。早期的方法包括差分剪枝(Diff pruning)[265],该方法使用可微的 -范数对可学习的二元掩码进行正则化;以及 FishMask[266],该方法基于 Fisher 信息选择参数以提高相关性。LT-SFT[267]应用了彩票假设(Lottery Ticket Hypothesis)来识别重要的参数。SAM[268]使用二阶近似进行选择,而 Child-tuning [269]在子网络中动态选择参数。此外,FAR[270]和 BitFit[271]进一步展示了选择性参数高效微调(Selective PEFT),通过专注于优化特定的参数组。
重新参数化的PEFT(Parameter-Efficient Fine-Tuning)主要采用低秩参数化来提高效率,如图16(c)所示。LoRA(低秩适应)[92]引入了两个可训练矩阵, 和 ,修改输出为:
其中 是一个缩放因子。这种方法允许在保持核心知识的同时高效地适应新任务。基于LoRA,Intrinsic SAID [272] 最小化微调参数空间,进一步减少计算需求。动态变体包括DyLoRA [273] 和AdaLoRA [274],根据特定任务的需求动态调整秩,而AdaLoRA还结合了基于SVD的剪枝以提高效率。SoRA [275] 通过去除正交性约束简化过程,Laplace-LoRA [276] 应用贝叶斯校准进行微调。Compacter [277] 和VeRA [278] 进一步减少了参数复杂度。此外,DoRA [279] 在方向分量中优化更新,HiRA [280] 使用Hadamard积进行高秩更新,从而提高了效率和性能。为了处理多个任务和不断变化的领域,Terra [281] 集成了一个时变矩阵,ToRA [282] 利用Tucker分解进一步改进LoRA结构。除了结构设计,PiSSA [283] 和LoRA-GA [284] 使用SVD和梯度对齐优化LoRA的初始化。同时, [285]、LoRA-Pro [286] 和CopRA [287] 进一步细化了梯度更新策略。此外,ComLoRA [288] 采用竞争学习选择表现最佳的LoRA组件。
混合 PEFT 方法通过整合或优化各种微调策略来提高训练后效率。一种突出的技术是 UniPELT [289],它在变压器块中集成了 LoRA、前缀调优和适配器。该方法通过由前馈网络 (FFNs) 管理的门控机制动态激活组件,这些 FFNs 生成标量 ,最终优化参数利用。另一种创新方法是 MAM Adapter [250],它通过在自注意力层中战略性地定位前缀调优,并在前馈层中使用缩放并行适配器来改进这一技术。此外,基于 NAS 的方法如 NOAH [290] 和 AUTOPEFT [291] 通过识别特定任务的最佳 PEFT 配置来提高训练后效率。HeadMap [292] 使用贪婪方法识别一系列在某些任务中起关键作用的注意力头(即知识电路),并通过将这些注意力头的输出映射回 LLM 的残差流中,高效地提升模型性能。最后,LLM-Adapters [293] 提供了一个框架,用于在 LLM 中集成各种 PEFT 技术,确保最有效的模块放置以维持不同模型规模下的效率。
知识蒸馏(KD)是大型语言模型(LLM)后训练优化中的关键技术,能够将大型预训练教师模型的知识转移到紧凑的学生模型中,从而提高效率而不牺牲性能。最初在模型压缩背景下提出,KD因其能够将复杂知识提炼到资源高效的架构中而受到广泛关注,使得其能够在边缘设备和嵌入式系统等受限制环境中部署。通过利用教师模型的细腻输出分布——比传统的硬标签更丰富——KD使学生不仅能够复制类别预测,还能复制类间关系和教师表示中固有的细微模式。这一过程通常涉及优化一个复合损失函数,该函数平衡监督学习目标与蒸馏特定目标,显著减少计算和内存需求,同时保持泛化能力。
KD的基本机制在于最小化一个混合损失,该损失集成了传统分类损失与蒸馏项。形式上,给定教师模型的软输出概率 和学生模型的预测 ,以及真实标签 和学生输出 ,KD损失表示为:
其中 表示捕捉与真实标签对齐的交叉熵损失, 表示测量教师和学生分布之间差异的Kullback-Leibler散度[294], 是一个调节目标的超参数。软目标 通常由温度参数 调整(即 ,其中 是教师的logits),编码了更丰富的概率信息,使学生能够模拟教师的决策细微之处,而不仅仅是标签准确性。
KD广泛用于资源受限环境下的模型压缩和迁移学习,其中预训练的教师指导特定任务的学生。其有效性取决于教师容量、学生架构和蒸馏损失设计等因素。最近的进展将KD扩展到输出蒸馏之外,使得在后训练优化中实现更高效和适应性强的LLM。根据对教师模型内部参数和中间表示的访问程度,KD方法大致可以分为黑盒KD和白盒KD。
表6:大型语言模型(2020–2025年)知识蒸馏方法总结。此表概述了关键的蒸馏技术,详细列出了它们的技能、教师和学生模型、目标及发布时间线,并按黑盒KD(访问限于教师输出,通常来自闭源LLM)和白盒KD(访问教师参数或分布,通常来自开源LLM)分类。指标包括IF(指令跟随)、CoT(链式思维)、ICL(上下文学习)、SFT(监督微调)、D&S(差异与相似性)、RL(强化学习)、TP(思考模式)、NLU(自然语言理解)和NLG(自然语言生成)。
如表6所示,知识蒸馏方法大致可以分为两类:黑盒KD和白盒KD。我们提供了各种大型语言模型(LLMs)中的知识蒸馏技术的系统总结,以及它们相应的技能、教师模型和学生模型。
黑盒KD是指学生模型仅从教师的输出logits学习,而无法访问其内部表示或架构细节的情况。这种方法最初由Hinton[321]提出,符合经典的KD范式,由于其灵活性而被广泛采用。黑盒KD的一个关键优势是将教师模型视为不透明函数,即使教师是一个专有或预训练模型且访问受限,也能实现知识转移。实际上,大型教师LLM(如ChatGPT和GPT-4[9])通常用于生成高质量输出。与此同时,较小的语言模型(SLM),包括GPT-2[14]、T5[322]、Flan-T5[323]和CodeT5[324],作为学生模型。这些SLM经过优化以提高效率,同时保持强大的泛化能力,使其适合在资源受限环境中部署。
白盒KD通过利用教师模型的内部表示,扩展了传统的蒸馏范式。当教师模型的架构已知且可访问时,这种方法是有益的,允许进行更丰富的监督形式。与将教师视为不透明函数的黑盒KD不同,白盒KD允许学生模型不仅从教师的输出logits学习,还可以从中间激活、隐藏层甚至注意权重[325]学习。
DeepSeek-R1展示了KD通过将大规模模型中的复杂推理模式蒸馏到紧凑架构中,显著增强了小型LLM的推理能力,而无需承担直接在这些模型上进行强化学习(RL)的计算负担。这种方法称为直接蒸馏,利用由大型教师模型生成的大约80万样本的精心策划数据集,其中包括从DeepSeek-V3派生的20万非推理实例和由DeepSeek-R1-Stage1检查点生成的60万推理实例。这些样本构成了应用于开源基础模型(如Qwen和LLaMA的小型变体)的SFT的基础,使学生模型能够继承通常为其较大对应物保留的复杂推理能力。
DeepSeek-R1中的直接蒸馏过程如图17所示,展开在一个结构化的管道中。最初,教师模型——在大量数据集上预训练——生成一个包含推理和非推理输出的多样化语料库,捕捉逻辑模式和事实知识的谱系。非推理数据(约20万样本)提供了一般知识的基线,而推理数据(约60万样本)封装了多步推理链,通过教师的高级功能进行了细化。然后,在SFT阶段使用该数据集,学生模型在此过程中被训练以使其输出分布与教师对齐,使用推理数据直接微调较小模型以蒸馏出紧凑的推理模型。与直接应用于小模型的传统RL不同,后者可能因容量有限而导致次优推理,DeepSeek-R1的直接蒸馏通过转移预先优化的推理行为,克服了这些限制,实现了更高的性能并减少了资源需求。
DeepSeek-R1的KD方法的一个显著特点是强调在不同模型规模下保持推理完整性。通过集成从DeepSeek-R1-Stage1——通过大规模RL精炼的检查点——提取的推理轨迹,学生模型不仅复制了事实准确性,还模拟了复杂的推理过程,例如数学问题解决或逻辑演绎所需的推理过程。这种有针对性的转移与传统的KD形成对比,后者通常优先考虑分类任务,突显了DeepSeek-R1在面向推理的蒸馏方面的创新。此外,该方法减少了对学生进行大量RL迭代的需求,利用教师预先计算的推理输出简化训练,从而提高效率和可扩展性。这一方法论将DeepSeek-R1定位为将高级推理蒸馏到紧凑LLM的典范,为未来的后训练优化工作提供了蓝图。
集成和适应技术对于增强大语言模型(LLMs)在各种实际应用中的灵活性和有效性至关重要。这些方法使 LLMs 能够无缝处理异构数据类型,适应特定领域,并利用多种架构优势,从而应对复杂、多方面的挑战。本章详细介绍了三种主要策略:多模态集成 (\S7.1) ,使模型能够处理文本、图像和音频等不同的数据模态;领域适应 (\S7.2) ,对模型进行优化以适用于特定行业或用例;以及模型合并 (§7.3),将不同模型的能力融合在一起以优化整体性能。总体而言,这些方法增强了 LLMs 的适应性、效率和鲁棒性,拓宽了它们在不同任务和场景中的应用范围。
在前几章阐述的后训练优化策略基础上,本节探讨旨在增强大型语言模型(LLMs)和大型多模态模型(LMMs)有效处理多模态数据的高级方法。虽然监督微调提高了LLMs在特定任务上下文中的能力,但其在充分利用多模态能力方面的局限性需要更复杂的后训练方法。这些技术通过将不同数据类型整合到统一框架中,使LMMs能够应对复杂的跨模态任务(例如,从视觉输入生成网页代码[326]、解释复杂的文化符号如表情包[327]以及在不依赖光学字符识别的情况下进行数学推理[50])。通常,LMMs包括一个模态编码器、预训练的LLM主干和一个模态连接器[328],如图18所示。这种架构构成了后训练方法的基础,这些方法通过优化每个组件,促进稳健的多模态集成和性能提升。
模态连接方法在将多模态数据综合成一个连贯的表示框架中起着关键作用,可以分为三种主要策略:基于投影的方法、基于查询的方法和基于融合的方法[328],如图19所示。
基于投影的方法将不同的模态输入转换为统一的文本嵌入空间,使它们的特征与大语言模型(LLMs)的语言维度对齐,实现无缝集成。LLaMA-Adapter[329]通过引入图像编码器,将LLMs扩展到多模态系统中,实现了图像条件下的指令跟踪。其后续版本LLaMA-Adapter V2[330]通过将视觉标签嵌入到早期LLM层中,进一步改进了这一过程,促进了视觉知识的更好吸收。FROMAGe[331]通过对冻结的LLM和视觉编码器框架中的输入和输出层进行微调,实现了跨模态交互,而LLaVA-1.5[332]则利用双线性多层感知机(MLP)增强了多模态处理的鲁棒性。最近的发展,如Shikra[333],通过整合空间坐标来增强自然语言对话,而VILA[334]优化了视觉-语言预训练,以实现卓越的零样本能力。DetGPT[335]通过将推理驱动的对象检测与自然语言交互相结合,进一步推进了这一范式,利用投影技术促进了有效的多模态通信。SOLO[336]使用单一的Transformer架构进行统一和端到端的视觉-语言建模,接受原始图像块(以像素形式)和文本作为输入,而无需使用单独的预训练视觉编码器。MiniGPT-4[326]通过单个投影层将冻结的视觉编码器与Vicuna对齐,实现了类似GPT-4的能力,并采用了两阶段训练过程。Idefics[337]凭借自回归设计和多阶段预训练,在高效推理方面表现出色。LaVIT[338]通过离散视觉分词器统一了视觉和语言,实现了无缝生成。DeepSeek-VL2[339]通过动态平铺和多头潜在注意力增强了高分辨率图像理解。最后,Qwen2.5-VL[340]通过重新设计的视觉Transformer,提高了多模态任务的性能,在感知和视频理解方面表现出色。
基于查询的方法通过使用可学习的查询令牌从不同模态中提取结构化信息,弥合文本和非文本数据之间的差距,从而增强多模态集成。BLIP-2[52]率先采用了查询Transformer,实现了文本和视觉输入的有效集成。Video-LLaMA[341]通过组合视觉编码器将这一技术扩展到视频理解,而Instruct BLIP[342]通过改进查询机制确保了对指令的精确遵循。X-LLM[343]通过专用接口对齐多模态输入,而随后的创新如mPLUG-Owl[344]和Qwen-VL[345]优化了Q-Former架构以提高计算效率。LION[346]进一步展示了基于查询方法的有效性,通过提升视觉知识集成,强调了其在各种任务中增强LMM性能的实用性。Qwen-VL[345]是一系列大规模视觉-语言模型,基于Qwen-7B构建,集成了视觉接收器、位置感知适配器和三阶段训练管道,实现了多语言、细粒度的视觉-语言理解。Lyrics[347]是一个细粒度的视觉-语言预训练和指令微调框架,通过视觉细化器(图像标注、对象检测和语义分割)和多尺度查询Transformer(MQ-Former),增强了大型视觉-语言模型(LVLMs)的功能。
基于融合的技术通过直接将多模态特征嵌入到LLM架构中,加深了跨模态交互,促进了推理层面更丰富的集成。Flamingo[51]通过交叉注意力层在标记预测过程中融合视觉特征,实现了动态多模态处理。Open Flamingo[348]在此基础上,允许冻结的LLMs关注视觉编码器的输出,增强了灵活性。Otter[349]引入了指令调优,以改善多模态指令的遵循,而CogVLM[350]通过在Transformer层中集成视觉专家模块,实现了无缝特征合成。Obelics[351]利用交错的图像-文本训练数据,突显了基于融合的方法在实现连贯多模态性能方面的稳健性。InternVL[352]是一个大规模的视觉-语言基础模型,将视觉编码器扩展到60亿参数,并通过语言中间件(QLLaMA)逐步与LLMs对齐。Llama 3[25]是Meta开发的一系列多语言、工具使用的基础模型,参数规模达到4050亿,具有128K标记上下文窗口,通过改进的数据质量、更大规模的训练和结构化的后训练策略进行了优化。
表7:2022-2025年各模态编码器和大规模多模态模型概览。该表总结了关键的多模态模型,详细列出了它们的编码器类别、大小、输入投影器、LLM骨干和发布时间线,涵盖了视觉、音频和其他模态。指标包括C-a(交叉注意力)、Q-F(Q-Former)、MQ-F(多查询Q-Former)和LP(线性投影器),代表输入投影机制。
模态编码器将原始多模态输入压缩成紧凑且语义丰富的表示,使各种任务和模态的处理更加高效。这些组件对于将异构数据转换为与大语言模型(LLM)主干兼容的格式至关重要,支持从视觉推理到音频理解的各种应用。表7提供了在视觉、音频及其他模态中广泛使用的编码器的全面总结,详细描述了它们的特点及其对多模态集成的贡献。
视觉编码器是多模态学习的基础,有助于在大规模多模态模型(LMMs)中解释和生成视觉数据。CLIP [372] 通过对比学习建立了图像-文本的联合表示,增强了跨模态对齐。EVA [373] 优化了视觉注意力机制,提高了效率;而 ImageBind [374] 创建了一个统一的嵌入空间,跨越多个模态,提升了零样本识别能力。SigLIP [375] 引入了一种配对的Sigmoid损失来优化图像-文本预训练,DINOv2 [376] 则利用无监督学习从多样化的来源中提取鲁棒的视觉特征。LLaVA [53] 采用自指导策略将图像转换为文本描述,使用先进的大语言模型生成新的数据集。Video-ChatGPT [354] 支持大规模指令数据集下的对话视频理解,BT-Adapter [355] 通过高效的时序建模优化了视频理解。VideoChat [353] 专注于时空推理,利用专门的数据集和模型,如 CoDi-2 [369] 和 Mipha [358],在多模态处理中实现了效率提升。VL-Mamba [357] 和 Cobra [359] 引入了状态空间模型以优化推理,SPHINX-Tiny [356] 则强调数据多样性和训练效率。
音频编码器增强了大规模多模态模型(LMMs)处理和解释听觉输入的能力,扩展了其多模态范围。SpeechGPT [364] 将大规模语音数据集与卷积和变换器架构 [377] 结合,实现了强大的指令跟随能力。AudioPaLM [363] 结合了文本和语音处理,使用通用语音模型(USM)编码器 [378],在零样本语言翻译等任务中表现出色。WavCaps [379] 使用 CNN14 [380] 和 HTSAT [381] 来缓解音频-语言数据的稀缺问题,利用先进的大语言模型改进数据集质量和增强学习效果,突显了音频模态在多模态系统中的关键作用。
除了视觉和音频,其他模态的编码器,如3D理解和多模态融合,也是全面的大规模多模态模型(LMMs)的重要组成部分。NEXT-GPT [368] 促进了文本、图像、视频和音频之间的跨模态内容生成,通过最小的参数调整推进了类人AI能力的发展。ImageBind-LLM [366] 对齐了视觉和语言嵌入,以提高跨模态的指令跟随能力。LL3DA [370] 处理点云数据,用于3D推理和规划,引入了新的空间理解方法。X-LLM [343] 使用 Q-Former [52] 处理图像和视频输入,使用 C-Former [343] 处理语音,将音频特征压缩成词级别的嵌入,以提高多模态学习的效率。
领域适应(DA)是优化大型语言模型(LLMs)以在特定领域内表现出色的关键后训练策略,确保其在目标应用中的有效性。基于迁移学习[382,383]的原则,DA通过适应函数 将初始模型 转换为领域特定模型 ,如图所示:
这一过程使 能够应对指定领域的独特需求和复杂性,从而优化其性能和相关性。通过提高LLMs在编程[384, 385]和数学推理[386]等领域的熟练度,DA不仅提升了领域特定能力,还提高了计算效率,缓解了通用模型在处理领域特定术语和推理范式时的局限性。此外,DA显著减少了从头开始训练领域特定模型通常所需的大量标注数据集和计算资源[387],使其成为后训练方法的核心。
知识编辑代表了一种复杂的后训练方法,旨在修改大语言模型(LLMs)以满足特定领域的需求,同时不损害其基础能力。该技术促进了目标参数调整,保留了模型的现有性能,同时整合了新的或更新的领域知识[388]。通过实现对不断变化的知识景观的快速适应,知识编辑成为了后训练管道中不可或缺的组成部分。表8展示了主要方法的概述(例如,包括外部知识利用、集成和内在编辑)。
知识编辑的形式定义。 考虑一个由 参数化的原始LLM,预先在数据集 上训练。令 表示包含新或更新的信息 的数据集。知识编辑的目标是通过应用调整 来推导出修订后的参数集 ,有效地同化 同时最小化对 的退化。正式地,这被表述为一个约束优化问题,其中更新后的参数定义为:
其中 表示评估模型在 上质量的损失函数(例如,交叉熵)。为了保护在原始数据集上的性能,施加了一个约束:
其中 是一个小的正常数,限制在 上的性能损失。这种公式确保了 同化了 同时保留了模型的先前知识库。实际上, 可能被限制在特定的架构组件(例如,注意力层 (Attn)或前馈网络(FFN)),减少了计算开销并避免了全面重新训练,从而保留核心功能。
知识识别。知识编辑的初始阶段集中在检测并将新信息融入模型。PokeMQA [390] 使用可编程范围检测器和知识提示来解析查询,高效检索相关事实。相反,SERAC [389] 集成了反事实模型和分类器来确定新知识源的适用性,提供了一种最小侵入的方法,无需广泛的结构修改即可保留基础模型的完整性。[406] 分析了为什么LLM知识更新会创建混乱的连锁反应。现实世界中的编辑通常源自新兴事件,这些事件涵盖了新事实与过去事实之间的逻辑联系。基于这一观察,EvEdit [407] 提出了一种基于事件的知识编辑方法,用于确定知识锚点和知识更新边界。
知识关联。在识别之后,这一阶段将新获取的信息与模型现有的知识框架关联起来。Transformer-Patcher [392] 适应变压器架构以整合更新的事实,而CaliNET [391] 重新校准参数以与事实内容对齐。诸如Eva-KELLM [395]、MELO [396] 和REMEDI [393] 等方法精炼特定行为以进行精确更新,GRACE [394] 在知识插入后增强预测准确性,确保与先前表示的无缝集成。
内在知识编辑。最后阶段将关联的事实嵌入模型的内部结构,确保全面同化。虽然传统的微调可能资源密集,但先进的技术减轻了这一负担。约束微调 [397] 和元学习 [399] 最小化了知识损失和过拟合风险。可编辑训练 [398] 和知识编辑器 [399] 能够迅速调整参数,同时最小化性能影响,而SLAG [400]、MEND [401] 和MALMEN [402] 解决编辑冲突并支持大规模更新,同时保持基础能力并纳入新的领域见解。LLM Surgery [403] 通过应用逆梯度移除过时数据、梯度下降整合新事实,并引入KL散度项以保留现有知识,实现了显著的计算效率。KNE [404] 引入了一种知识神经元集合方法,该方法仅定位和更新与新插入事实强烈相关的神经元,实现更准确的编辑同时保留无关知识。OVERTONE [405] 通过引入一种逐词平滑技术解决知识编辑中的异构词过拟合问题,自适应地细化训练目标,从而保留预训练知识并提高模型对新插入事实的推理能力。这些有针对性的技术确保了模型在整合新获取信息的同时保留其基础能力。
检索增强生成(Retrieval-Augmented Generation, RAG)将传统信息检索与现代大语言模型(LLMs)结合,以提高生成输出的相关性和事实准确性[48, 408, 409]。通过动态地从外部源检索相关信息并将其嵌入生成过程,RAG解决了LLMs在特定领域知识上的不足,并减少了生成幻觉内容的倾向。这种方法在需要精确、最新信息的领域特别有效,例如问答系统[48]、科学研究[410]和医疗保健[411],这些领域能够处理复杂的查询和知识密集型任务。此外,RAG减少了对话系统中误导性响应的频率,提高了基于知识的自然语言生成的保真度[411, 412]。
本小节重点介绍基于训练的RAG方法[413],认识到无训练的RAG方法[414, 415, 416]可能因缺乏任务特定优化而影响知识利用效率。三种主要的训练策略——独立训练(Independent Training)、顺序训练(Sequential Training)和联合训练(Joint Training)——增强了模型的适应性和集成能力,如图20所示。
该策略将检索器和生成器作为独立模块进行训练,使根据任务需求灵活使用稀疏或密集检索器成为可能。例如,DPR[417]使用双BERT网络分别对查询和段落进行编码,通过对比学习优化检索,而不涉及生成器的交互。同样,[418]提出了Reward-RAG,利用奖励模型根据GPT反馈仅微调检索器,而不改变生成器。
顺序训练通过一次优化一个模块来提高效率,促进检索器和生成器之间的协同作用。它包括检索器优先方法[419, 420, 421, 422, 423],
如RETRO[424],它首先预训练一个基于BERT的检索器,然后训练一个编码器-解码器以无缝集成检索到的内容,从而提高性能。另一种方法是语言模型优先方法[425, 426, 427],如RA-DIT[428],首先微调语言模型以有效利用检索到的知识,然后再优化检索器以实现更好的对齐和连贯性[419, 425]。
联合训练在一个端到端框架中同步优化检索器和生成器。RAG[48]通过最小化负对数似然来共同训练这两个组件,而REALM[429]则通过最大内积搜索(MIPS)[430]提高检索精度。这些方法适应特定任务的需求,最大化外部知识的好处,同时最小化生成错误。
模型合并已成为提高大语言模型(LLM)在训练和推理阶段性能和效率的重要后训练策略[431, 432]。这种方法将专门化的模型整合到一个统一的架构中,避免了大量重新训练的需求,并解决了大型模型尺寸和计算需求带来的挑战。与在混合数据集上进行训练不同,模型合并将单任务模型整合为一个多任务能力的协调实体,提供了一种资源高效的多任务学习范式。通过简化训练管道并促进在各种应用中具有强大泛化能力的多功能模型的开发,该技术优化了LLM在不同场景中的部署。
给定一组候选模型 ,目标是设计一个合并函数 ,生成一个统一模型 ,可能以基础模型 为针点,如图所示:
模型融合技术被系统地划分为三个层次——权重级、输出级和模型级融合——如图21所示。
权重级融合直接操作参数空间,对于具有相似架构或在相关任务上训练的模型特别有效。形式上,给定参数集 ,线性融合方案将这些参数集聚合为统一的集合 ,表示为:
Model Soup [433, 434] 通过线性组合在不同任务上微调的模型权重,生成一个单一且高效的模型,体现了这一点。Task Arithmetic (TA) [435] 通过参数的算术运算扩展了这种灵活性,提高了性能适应性。为了缓解对齐问题,TIESmerging [436] 确保参数的一致性,而 DARE [437] 通过概率调整参数增量来最小化干扰,优化融合过程的连贯性和效率。
当模型在架构或初始化上存在差异,使得权重级方法不切实际时,输出级融合变得有利。这种方法聚合输出分布而非内部参数,表示为:
其中 和 分别代表来自模型 和 的概率分布。类似于集成策略,此方法将模型预测综合为统一输出。LLMBlender [438] 通过生成独立输出并使用排名和生成过程进行融合来实现这一点,而 FuseLLM [439] 将组合输出概率蒸馏到单个网络中以保持分布的保真度。FuseChat [440] 通过将多个大型语言模型的知识转移到一个整合的目标模型中,结合了权重级和输出级融合,增强了跨模型的协同效应。
模型级融合通过路由机制整合子模型或层,通常在混合专家(MoE)框架内实现,表示为:
其中 Merge 表示硬路由或软路由函数。Switch Transformer [54] 通过离散门控选择性激活专家层,减少了计算负载,但可能因刚性路由而导致性能折衷。SoftMoE [441] 和 SMEAR [442] 利用连续门控促进专家之间的平滑过渡,增强组件集成和模型一致性。
预合并方法通过优化独立模型的权重空间、架构一致性及参数对齐,为模型合并建立兼容基础,从而减少后续融合阶段中的冲突和干扰。这些技术提高了合并过程的有效性,确保最终统一的模型保留其组成部分的优势,同时减轻潜在的性能下降。
线性化微调。这种方法在预训练模型的切线空间内精炼模型,避免使用原始的非线性参数空间以实现权重解耦,从而减少合并过程中的干扰。例如,部分适配器的线性化(如TAFT [443])或注意力层 [444] 将权重更新对齐到不相交的输入区域,保持合并模型中的独立功能 [445]。通过将更新限制在线性框架内,该方法促进了不同模型之间的无缝集成。
架构转换。这种策略将具有不同架构的异构模型转换为适合直接参数合并的同质形式。方法包括知识蒸馏,如FuseChat [440] 所示,以及身份层插入,如CLAFusion [446]。GAN Cocktail [447] 初始化目标模型以吸收来自不同架构的输出,实现有效桥接结构差异的统一合并过程。
权重对齐。此方法通过置换将模型对齐到共享的权重盆地,利用线性模式连通性(LMC)属性增强兼容性。技术包括最优传输(OTFusion [448])、启发式匹配(Git re-basin [449])和基于学习的对齐(DeepAlign [450])。REPAIR [451] 减轻了缺乏归一化层的模型中的对齐失败,确保在融合前实现稳健的参数收敛。
在合并过程中,动态优化参数融合策略的方法旨在解决任务冲突,减轻干扰,并提升合并后模型的性能和泛化能力。这些方法应对实时整合不同模型的挑战,增强统一架构的适应性和鲁棒性。
该方法利用简单的参数平均或任务向量算术,定义任务向量 为第 个任务微调后的参数 与初始预训练参数 之间的偏差:
并通过以下公式促进多任务学习: