fix typo

fancyerii · Aug 7, 2024 · 4097840 · 4097840
1 parent 2199e07
commit 4097840
Showing 1 changed file with 3 additions and 3 deletions.
diff --git a/_posts/2024-01-31-dpo.md b/_posts/2024-01-31-dpo.md
@@ -52,7 +52,7 @@ tags:
 **奖励建模阶段**：在第二阶段，使用SFT模型提示一些提示x，产生答案对$(y_1,y_2) \sim \pi^{\text{SFT}}$。然后，这些答案对被呈现给人类标注者，他们对一个答案表达偏好，表示为$y_w \succ y_l \vert x$，其中$y_w$和$y_l$分别表示$(y_1, y_2)$中的较好和较差响应。假设这些偏好是由一些潜在的奖励模型$r^∗(x, y)$生成的，而我们无法访问该模型。有许多用于建模偏好的方法，Bradley-Terry（BT）[5]模型是一个流行的选择（尽管更通用的Plackett-Luce排名模型[30, 21]也与该框架兼容，如果我们可以访问多个排名的答案）。BT模型规定人类偏好分布$p^∗$可以写成：
 
 $$
-p^* (y_w \succ y_l \vert x) = \frac{\text{exp} (r^∗(x, y_1 ))}{\text{exp} (r^∗(x, y_1 )) + \text{exp} (r^∗(x, y_2 ))} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(1)
+p^* (y_1 \succ y_2 \vert x) = \frac{\text{exp} (r^∗(x, y_1 ))}{\text{exp} (r^∗(x, y_1 )) + \text{exp} (r^∗(x, y_2 ))} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(1)
 $$
 
 假设我们可以访问从$$p^∗$$中采样的一组静态对比数据$$\mathcal{D}=\{x^{(i)}, y_w^{(i)}, y_l^{(i)}\}_{i=1}^n$$，我们可以对奖励模型$r_{\phi}(x, y)$进行参数化，并通过最大似然估计来估计参数。将问题框定为二元分类，我们有负对数似然损失：
@@ -122,7 +122,7 @@ $$
 细心的读者可以发现(1)式其实就是logistic函数，我们把分子变成1，则(1)可以写成logistic函数的形式：
 
 $$
-p^* (y_w \succ y_l \vert x) = \frac{1}{ 1+ \exp(r(x,y_2)-r(x,y_1)  }
+p^* (y_1 \succ y_2 \vert x) = \frac{1}{ 1+ \exp^{r(x,y_2)-r(x,y_1)}  }
 $$
 
 2.公式(2)
@@ -143,7 +143,7 @@ $$
 
 6.公式(6)
 
-公式(5)对所有的r(x,y)和对应的$pi_r$都成立，那么对于人脑子里真实的$$r^*(x,y)$$和对应的最优策略$$\pi^*$$当然也成立。把(5)式中的$r(x,y),\pi_r$用$$r^*(x,y),\pi^*$$替换，然后代入(1)式(或者我前面化简的logistic形式)，则公共的$\beta \log Z(x)$被减去了，整理一下就是公式(6)。
+公式(5)对所有的r(x,y)和对应的$\pi_r$都成立，那么对于人脑子里真实的$$r^*(x,y)$$和对应的最优策略$$\pi^*$$当然也成立。把(5)式中的$r(x,y),\pi_r$用$$r^*(x,y),\pi^*$$替换，然后代入(1)式(或者我前面化简的logistic形式)，则公共的$\beta \log Z(x)$被减去了，整理一下就是公式(6)。
 
 7.公式(7)