Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于rm模型训练策略与损失函数 #43

Open
tonylin52 opened this issue Jan 16, 2024 · 12 comments
Open

关于rm模型训练策略与损失函数 #43

tonylin52 opened this issue Jan 16, 2024 · 12 comments

Comments

@tonylin52
Copy link

首先恭喜获得best paper!!!

我这面有个疑问,我想试验一下论文中label smooth这块,但是在代码中没有发现有关label smooth的损失修改,另外也没有发现任何关于损失添加margin的代码,请问这块是没有release出来吗?

@Ablustrund
Copy link
Collaborator

感谢您的关注!
我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

@tonylin52
Copy link
Author

感谢您的关注! 我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

我想请教一下margin的这个具体应该怎么确定数值?还有margin的范围有考究吗?

@qianxianyang
Copy link

margin可以根据preference differences参考Llama2论文中的值进行设置

@refrain-wbh
Copy link
Contributor

margin的数值就是preference differences,margin的范围并没有讲究,因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。 但是margin的范围应该要相对较小,因为我们推测过大的数值可能会导致reward model的打分不稳定

@tonylin52
Copy link
Author

收到 十分感谢!还有个问题哈,目前我训练过的reward model对于短回答(1-10个token左右)的打分效果非常不好,这块你们遇到过类似情况吗?

@refrain-wbh
Copy link
Contributor

我们没有遇到过,这个可能与训练集的分布有关,你的训练集的回答长度普遍很长吗?

@tonylin52
Copy link
Author

tonylin52 commented Feb 1, 2024

回答长短都有。短的集中在一些确定性任务上,例如实体识别,语义分类这样的任务,一般回答例如:“积极”,“好”,“悲观”等极短的token。然后训练rm模型得时候,就会发现,在这些短回答的任务上,rm即使训练,(训练集&验证集)表现也都不佳。

@refrain-wbh
Copy link
Contributor

我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决,因为对于reward model来说,其通过偏好对学习到给定query不同回答的相对好坏,从而能够给出一个相对分数。然而这类任务并不存在相对好坏,而是一个正确与否的0 1标签。从直觉上来说,我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息,你的数据集中为什么会包含语义分类的任务,以及你是如何构造这种语义分类的偏好数据集的? 训练集和验证集的表现不佳是指什么现象,使用了什么指标呢

@tonylin52
Copy link
Author

目前RM的数据集,就是我们自己收集的一些分类任务的数据集,简单示例为:
prompt:“今天的工作很不顺心。”从这句话中选取意图,1-抱怨;2-建议,要求按照json格式,只回答id即可,例如{‘id’:2}。
chosen:{‘id’:1}
rejected:{‘id’:2}

指标的话,目前就是列出来最后一个词的reward查看结果。如果表现好,chosen的reward都应该高于rejected的。

@tonylin52
Copy link
Author

另外,我感觉你们的RM论文,用途比较实际,能看出来RM模型对于数据的preference differences到底怎么样。

因为我最近在看谷歌的和fb的,个人直觉:利用AI去强行训练RM功能,是建立在模型本身对不同结果的辨别能力还OK的情况下;至于如何保证辨别能力OK,那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。

@dotsonliu
Copy link

你好,都过去这么久了,有smooth和margin的代码吗?

@tonylin52
Copy link
Author

你好,都过去这么久了,有smooth和margin的代码吗?

这种高校类的除非有企业顶着,通常是昙花一现

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants