关于rm模型训练策略与损失函数 #43

tonylin52 · 2024-01-16T03:26:43Z

首先恭喜获得best paper！！！

我这面有个疑问，我想试验一下论文中label smooth这块，但是在代码中没有发现有关label smooth的损失修改，另外也没有发现任何关于损失添加margin的代码，请问这块是没有release出来吗？

Ablustrund · 2024-01-17T07:17:17Z

感谢您的关注！
我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多，同时我们也尝试了很多的组合，所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

tonylin52 · 2024-01-18T01:35:30Z

感谢您的关注！我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多，同时我们也尝试了很多的组合，所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

我想请教一下margin的这个具体应该怎么确定数值？还有margin的范围有考究吗？

qianxianyang · 2024-01-30T03:46:15Z

margin可以根据preference differences参考Llama2论文中的值进行设置

refrain-wbh · 2024-01-30T15:29:32Z

margin的数值就是preference differences，margin的范围并没有讲究，因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。但是margin的范围应该要相对较小，因为我们推测过大的数值可能会导致reward model的打分不稳定

tonylin52 · 2024-01-31T00:57:38Z

收到十分感谢！还有个问题哈，目前我训练过的reward model对于短回答（1-10个token左右）的打分效果非常不好，这块你们遇到过类似情况吗？

refrain-wbh · 2024-01-31T14:25:11Z

我们没有遇到过，这个可能与训练集的分布有关，你的训练集的回答长度普遍很长吗？

tonylin52 · 2024-02-01T01:02:19Z

回答长短都有。短的集中在一些确定性任务上，例如实体识别，语义分类这样的任务，一般回答例如：“积极”，“好”，“悲观”等极短的token。然后训练rm模型得时候，就会发现，在这些短回答的任务上，rm即使训练，（训练集&验证集）表现也都不佳。

refrain-wbh · 2024-02-04T03:24:54Z

我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决，因为对于reward model来说，其通过偏好对学习到给定query不同回答的相对好坏，从而能够给出一个相对分数。然而这类任务并不存在相对好坏，而是一个正确与否的0 1标签。从直觉上来说，我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息，你的数据集中为什么会包含语义分类的任务，以及你是如何构造这种语义分类的偏好数据集的？训练集和验证集的表现不佳是指什么现象，使用了什么指标呢

tonylin52 · 2024-02-04T05:41:47Z

目前RM的数据集，就是我们自己收集的一些分类任务的数据集，简单示例为：
prompt：“今天的工作很不顺心。”从这句话中选取意图，1-抱怨；2-建议，要求按照json格式，只回答id即可，例如{‘id’：2}。
chosen：{‘id’：1}
rejected：{‘id’：2}

指标的话，目前就是列出来最后一个词的reward查看结果。如果表现好，chosen的reward都应该高于rejected的。

tonylin52 · 2024-02-04T08:19:12Z

另外，我感觉你们的RM论文，用途比较实际，能看出来RM模型对于数据的preference differences到底怎么样。

因为我最近在看谷歌的和fb的，个人直觉：利用AI去强行训练RM功能，是建立在模型本身对不同结果的辨别能力还OK的情况下；至于如何保证辨别能力OK，那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。

dotsonliu · 2024-08-26T15:34:06Z

你好，都过去这么久了，有smooth和margin的代码吗？

tonylin52 · 2024-09-06T01:24:15Z

你好，都过去这么久了，有smooth和margin的代码吗？

这种高校类的除非有企业顶着，通常是昙花一现

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于rm模型训练策略与损失函数 #43

关于rm模型训练策略与损失函数 #43

tonylin52 commented Jan 16, 2024

Ablustrund commented Jan 17, 2024

tonylin52 commented Jan 18, 2024

qianxianyang commented Jan 30, 2024

refrain-wbh commented Jan 30, 2024

tonylin52 commented Jan 31, 2024

refrain-wbh commented Jan 31, 2024

tonylin52 commented Feb 1, 2024 •

edited

Loading

refrain-wbh commented Feb 4, 2024

tonylin52 commented Feb 4, 2024

tonylin52 commented Feb 4, 2024

dotsonliu commented Aug 26, 2024

tonylin52 commented Sep 6, 2024

关于rm模型训练策略与损失函数 #43

关于rm模型训练策略与损失函数 #43

Comments

tonylin52 commented Jan 16, 2024

Ablustrund commented Jan 17, 2024

tonylin52 commented Jan 18, 2024

qianxianyang commented Jan 30, 2024

refrain-wbh commented Jan 30, 2024

tonylin52 commented Jan 31, 2024

refrain-wbh commented Jan 31, 2024

tonylin52 commented Feb 1, 2024 • edited Loading

refrain-wbh commented Feb 4, 2024

tonylin52 commented Feb 4, 2024

tonylin52 commented Feb 4, 2024

dotsonliu commented Aug 26, 2024

tonylin52 commented Sep 6, 2024

tonylin52 commented Feb 1, 2024 •

edited

Loading