-
Notifications
You must be signed in to change notification settings - Fork 101
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于rm模型训练策略与损失函数 #43
Comments
感谢您的关注! |
我想请教一下margin的这个具体应该怎么确定数值?还有margin的范围有考究吗? |
margin可以根据preference differences参考Llama2论文中的值进行设置 |
margin的数值就是preference differences,margin的范围并没有讲究,因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。 但是margin的范围应该要相对较小,因为我们推测过大的数值可能会导致reward model的打分不稳定 |
收到 十分感谢!还有个问题哈,目前我训练过的reward model对于短回答(1-10个token左右)的打分效果非常不好,这块你们遇到过类似情况吗? |
我们没有遇到过,这个可能与训练集的分布有关,你的训练集的回答长度普遍很长吗? |
回答长短都有。短的集中在一些确定性任务上,例如实体识别,语义分类这样的任务,一般回答例如:“积极”,“好”,“悲观”等极短的token。然后训练rm模型得时候,就会发现,在这些短回答的任务上,rm即使训练,(训练集&验证集)表现也都不佳。 |
我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决,因为对于reward model来说,其通过偏好对学习到给定query不同回答的相对好坏,从而能够给出一个相对分数。然而这类任务并不存在相对好坏,而是一个正确与否的0 1标签。从直觉上来说,我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息,你的数据集中为什么会包含语义分类的任务,以及你是如何构造这种语义分类的偏好数据集的? 训练集和验证集的表现不佳是指什么现象,使用了什么指标呢 |
目前RM的数据集,就是我们自己收集的一些分类任务的数据集,简单示例为: 指标的话,目前就是列出来最后一个词的reward查看结果。如果表现好,chosen的reward都应该高于rejected的。 |
另外,我感觉你们的RM论文,用途比较实际,能看出来RM模型对于数据的preference differences到底怎么样。 因为我最近在看谷歌的和fb的,个人直觉:利用AI去强行训练RM功能,是建立在模型本身对不同结果的辨别能力还OK的情况下;至于如何保证辨别能力OK,那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。 |
你好,都过去这么久了,有smooth和margin的代码吗? |
这种高校类的除非有企业顶着,通常是昙花一现 |
首先恭喜获得best paper!!!
我这面有个疑问,我想试验一下论文中label smooth这块,但是在代码中没有发现有关label smooth的损失修改,另外也没有发现任何关于损失添加margin的代码,请问这块是没有release出来吗?
The text was updated successfully, but these errors were encountered: