Skip to content

Commit

Permalink
fix typo
Browse files Browse the repository at this point in the history
  • Loading branch information
fancyerii committed Aug 7, 2024
1 parent 2199e07 commit 4097840
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions _posts/2024-01-31-dpo.md
Original file line number Diff line number Diff line change
Expand Up @@ -52,7 +52,7 @@ tags:
**奖励建模阶段**:在第二阶段,使用SFT模型提示一些提示x,产生答案对$(y_1,y_2) \sim \pi^{\text{SFT}}$。然后,这些答案对被呈现给人类标注者,他们对一个答案表达偏好,表示为$y_w \succ y_l \vert x$,其中$y_w$和$y_l$分别表示$(y_1, y_2)$中的较好和较差响应。假设这些偏好是由一些潜在的奖励模型$r^∗(x, y)$生成的,而我们无法访问该模型。有许多用于建模偏好的方法,Bradley-Terry(BT)[5]模型是一个流行的选择(尽管更通用的Plackett-Luce排名模型[30, 21]也与该框架兼容,如果我们可以访问多个排名的答案)。BT模型规定人类偏好分布$p^∗$可以写成:

$$
p^* (y_w \succ y_l \vert x) = \frac{\text{exp} (r^∗(x, y_1 ))}{\text{exp} (r^∗(x, y_1 )) + \text{exp} (r^∗(x, y_2 ))} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(1)
p^* (y_1 \succ y_2 \vert x) = \frac{\text{exp} (r^∗(x, y_1 ))}{\text{exp} (r^∗(x, y_1 )) + \text{exp} (r^∗(x, y_2 ))} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(1)
$$

假设我们可以访问从$$p^∗$$中采样的一组静态对比数据$$\mathcal{D}=\{x^{(i)}, y_w^{(i)}, y_l^{(i)}\}_{i=1}^n$$,我们可以对奖励模型$r_{\phi}(x, y)$进行参数化,并通过最大似然估计来估计参数。将问题框定为二元分类,我们有负对数似然损失:
Expand Down Expand Up @@ -122,7 +122,7 @@ $$
细心的读者可以发现(1)式其实就是logistic函数,我们把分子变成1,则(1)可以写成logistic函数的形式:

$$
p^* (y_w \succ y_l \vert x) = \frac{1}{ 1+ \exp(r(x,y_2)-r(x,y_1) }
p^* (y_1 \succ y_2 \vert x) = \frac{1}{ 1+ \exp^{r(x,y_2)-r(x,y_1)} }
$$

2.公式(2)
Expand All @@ -143,7 +143,7 @@ $$

6.公式(6)

公式(5)对所有的r(x,y)和对应的$pi_r$都成立,那么对于人脑子里真实的$$r^*(x,y)$$和对应的最优策略$$\pi^*$$当然也成立。把(5)式中的$r(x,y),\pi_r$用$$r^*(x,y),\pi^*$$替换,然后代入(1)式(或者我前面化简的logistic形式),则公共的$\beta \log Z(x)$被减去了,整理一下就是公式(6)。
公式(5)对所有的r(x,y)和对应的$\pi_r$都成立,那么对于人脑子里真实的$$r^*(x,y)$$和对应的最优策略$$\pi^*$$当然也成立。把(5)式中的$r(x,y),\pi_r$用$$r^*(x,y),\pi^*$$替换,然后代入(1)式(或者我前面化简的logistic形式),则公共的$\beta \log Z(x)$被减去了,整理一下就是公式(6)。

7.公式(7)

Expand Down

0 comments on commit 4097840

Please sign in to comment.