-
Notifications
You must be signed in to change notification settings - Fork 10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
想请教一些关于训练的事情 #4
Comments
|
https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/tree/main 这里貌似有9w条数据(这还是我查到的比较少的),而agent-flan总共也就3w多条。所以貌似不太能match上?想请教一下您们用的是什么?方便复现❤️ |
就是不做采样直接混合呀,因为大家都在一个数量级上所以我们就没有做针对性的采样了 |
还是有两个问题想请教一下:
|
|
我发现了一些奇怪的点,比如toolbench_tflan_60p_r10r5u7.jsonl的第四条( "id": "toolbench_tflan_60p_r10r5u7_3"),最后一个的loss是false,那这不是没有意义吗?(按照您的意思这种并不会对loss有贡献吧,那不是算到最后一个loss=true的就行?) |
求对上一个计算loss的解答(因为agent-flan里有最后一个输出loss是false的,那理论上没必要把它放进来,所以你们是吧所有loss都计算了吗?),以及想再问一下你们会把sharegpt第一个是gpt的过滤掉吗? |
我们只计算了assistant上的loss,同时如果assistant上的loss=False也不计算,sharegpt也只计算assistant上的 |
是这样子的,但如果最后一轮是false(比如toolbench_tflan_60p_r10r5u7.jsonl的第四条( "id": "toolbench_tflan_60p_r10r5u7_3"))他对全文没有任何意义,因为decoder的缘故前文算梯度根本算不到他。(甚至还有两个case是所有轮次都是false的)我就是想知道这是传错了还是什么原因? |
我注意到你们给出了数据集,想请教一下你们数据量和配比是什么呢?(包括flan版本和你们复现的agenttuning版本)(shareGPT应该就90000多条吧,你们是把这几个怎么混合(or过采样)到一样的呢?)
2.想在了解一下超参数的问题,因为我看agenttuning有一些非常奇怪的超参数,您这里是直接使用deepspeed默认的超参数吗?(for example 10%的warmup,最大token是2048还是4096之类的)
The text was updated successfully, but these errors were encountered: