DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

1.简介

基于 人类反馈的强化学习（RLHF） 是一个复杂且不稳定的过程，拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。

本文作者提出了 直接偏好优化（DPO） 算法，它稳定、高效且计算量轻，无需拟合奖励模型，也无需在微调期间从LM采样或执行显著的超参数调整。

实验表明，DPO 可以微调 LMs，使其与人类偏好保持一致，与现有方法一样或更好。值得注意的是，DPO 在情绪控制的能力上超越了 RLHF，提高了总结和单轮对话的响应质量，同时大大简化了实现和训练。

2.RLHF pipeline

RLHF通常由3个阶段组成：

监督微调 (SFT)：高质量数据集上通过监督学习
偏好采样和奖励学习 (RM)：标注排序的判别式标注成本远远低于生成答案的生成式标注。
强化学习微调 (PPO)：在对SFT模型进行微调时生成的答案分布也会发生变化，会导致RM模型的评分会有偏差，需要用到强化学习.

2.1 SFT 阶段

RLHF 通常从一个通用的预训练 LM 开始，该 LM 在高质量数据集上通过监督学习（最大似然）对感兴趣的下游任务（如对话、指令跟随、总结等）进行微调，以获得模型 $π^{S F T}$ 。

2.2 Reward 建模阶段

在第二阶段，用 $x$ 提示 $π^{S F T}$ 产生一对答案 $ (y_1, y_2) \sim \pi^{SFT} $。通过人类标注，得到偏好标签 $y_{w} ≻ y_{l}$ ，其中 $y_{w}$ 表示首选prompt， $y_{l}$ 表示非首选prompt。

通过静态数据集 $D = {x^{i}, y_{w}^{i}, y_{l}^{i}}_{i = 1}^{N}$ ，可以将奖励模型 $ r_{\phi}(x,y) $参数化，并通过极大似然估计参数。将问题定义为二元分类，有负对数似然损失：

L_{R} (r_{ϕ}, D) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (r_{ϕ} (x, y_{w}) - r_{ϕ} (x, y_{l}))]

其中 $σ$ 是 sigmoid 函数。奖励模型 $r_{ϕ} (x, y)$ 通常由$ \pi^{SFT} $进行初始化，并在最后一个 Transformer 层之后添加线性层，该层为奖励值生成单个标量预测。

2.3 RL 微调阶段

在 RL 阶段，使用学习到的奖励函数来对语言模型进行打分。特别是，制定了以下优化问题：

max_{π_{θ}} E_{x \sim D, y \sim π_{θ} (y ∣ x)} [r_{ϕ} (x, y)] - β D_{KL} [π_{θ} (y ∣ x) ∥ π_{ref} (y ∣ x)]

其中 $β$ 是控制 $π_{θ}$ 偏离基本参考策略 $π_{r e f}$ 的参数。在实践中，语言模型策略 $π_{θ}$ 也被初始化为 $π_{r e f}$ 。**添加的 **$ \beta $约束很重要，因为它可以防止模型偏离奖励模型准确的分布太远，以及保持生成多样性和防止模式崩溃为单个高奖励答案。

由于语言生成的离散性，这个目标是不可微的，并且通常使用强化学习进行优化。标准方法是构造奖励函数 $r (x, y) = r_{ϕ} (x, y) - β (\log π_{θ} (y ∣ x) - \log π_{r e f} (y ∣ x))$ ，并利用 PPO 最大化。

3.直接偏好优化（DPO）

与之前的 RLHF 方法不同，DPO 绕过了奖励建模步骤，并使用偏好数据直接优化语言模型。

3.1 PPO算法总览

对一个问题，有两个回答 choice 和 reject，不是一个一定正确，一个一定不正确；而是训练出的语言模型，更加prefer哪一种，即希望语言模型以哪一种方式来回答。
准备两个模型 model_gen 和 model_gen_ref，其实是一摸一样的模型，只不过在训练过程中，只会训练其中一个，另外一个是不训练的。
把两两份数据，分别输入到两个模型中计算，可以得到4份概率；
4份数据中，其中有2份是想要的，2份是不想要的；2份想要的做差，得到pro_log_diff，2份不想要的做差 pro_log_diff_ref
拿2份做差的数据，计算KL散度；惩罚policy模型对正样本概率的下降和负样本概率的上升
以KL散度计算Loss

3.1 DPO 目标函数

类似于奖励建模方法，策略目标变为：（推导过程详见原论文）

L_{DPO} (π_{θ}; π_{ref}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (β \log \frac{π_{θ} (y_{w} ∣ x)}{π_{ref} (y_{w} ∣ x)} - β \log \frac{π_{θ} (y_{l} ∣ x)}{π_{ref} (y_{l} ∣ x)})]

通过这种方式，绕过了显式奖励建模步骤，同时也避免了执行强化学习优化的需要。

逐步分析这个优化目标：首先， $σ$ 函数里面的值越大， $L_D P O$ 越小。即最大化 $y_{w}$ 和 $y_{l}$ 的奖励函数：

r_{w} = \log \frac{π_{θ} (y_{w} ∣ x)}{π_{ref} (y_{w} ∣ x)}

r_{l} = \log \frac{π_{ref} (y_{l} ∣ x)}{π_{θ} (y_{l} ∣ x)}

对于人类偏好结果 $y_{w}$ ，我们期望 $π_{θ} (y_{w} ∣ x)$ 越大越好；
对于人类非偏好结果 $y_{l}$ ，我们期望 $π_{θ} (y_{l} ∣ x)$ 越小越好。
如果 $π_{ref} (y_{w} ∣ x)$ 比较小，说明参考模型 $π^{ref}$ 没有正确分类该偏好响应 $y_{w}$ ，此时 $r_{w}$ 的奖励系数很大。
如果 $π_{ref} (y_{l} ∣ x)$ 比较大，说明参考模型 $π^{ref}$ 没有正确分类该非偏好响应 $y_{l}$ ，此时 $r_{l}$ 的奖励系数很大

3.2 DPO outline

对于每个prompt $x$ ，从参考策略中采样补全 $(y_{1}, y_{2}) \sim π_{ref} (\cdot ∣ x)$ ，用人类偏好进行标记以构建离线偏好数据集 $D = {x^{i}, y_{w}^{i}, y_{l}^{i}}_{i = 1}^{N}$ 。
对于给定的$ \pi_{\mathrm{ref}} $、 $D$ 和 $β$ ，优化语言模型 $π_{θ}$ 以最小化 $L_{DPO}$ 。

由于偏好数据集使用 $π^{S F T}$ 进行采样，因此只要可用，就会初始化 $π_{ref} = π^{S F T}$ 。在实践中，人们更愿意重用公开的偏好数据集，而不是生成样本并收集人类偏好。这时我们通过最大化首选prompt $(x, y_{w})$ 的似然来初始化$ \pi_{\mathrm{ref}} $，即

π_{ref} = \arg max_{π} E_{x, y_{w} \sim D} [\log π (y_{w} ∣ x)]

该过程有助于缓解真实 \pi _{\mathrm{ref}}与 DPO 使用的 $π_{ref}$ 之间的分布偏移。

4.实验

最大化奖励的同时最小化 KL 散度。可以看到 DPO 在保持较小 KL 散度时，也能够达到最大奖励。而 PPO 随着奖励的增大，KL 散度也在增大。
对不同采样温度的鲁棒性。DPO 在不同的采样温度下全面优于 PPO，同时在 Best of N 基线的最佳温度下也更胜一筹。

5.结论

基于人类反馈的强化学习（RLHF）是一个复杂且不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。本文作者提出了直接偏好优化（DPO）算法，它稳定、高效且计算量轻，无需拟合奖励模型，也无需在微调期间从LM采样或执行显著的超参数调整。实验表明，DPO 可以微调 LMs，使其与人类偏好保持一致，与现有方法一样或更好。值得注意的是，DPO 在情绪控制的能力上超越了 RLHF，提高了总结和单轮对话的响应质量，同时大大简化了实现和训练。

98.1 清华大模型公开课

DPO ​

1.简介 ​

2.RLHF pipeline ​

2.1 SFT 阶段 ​

2.2 Reward 建模阶段 ​

2.3 RL 微调阶段 ​

3.直接偏好优化（DPO） ​

3.1 PPO算法总览 ​

3.1 DPO 目标函数 ​

3.2 DPO outline ​

4.实验 ​

5.结论 ​

DPO