llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

ARQlalala · 2024-09-20T02:10:08Z

您好，我用llama3.1 8b训练32k的上下文，训练配置同readme中，但发现每个iter训练时间很长，llamafactory中用deepspeed 时间是36s，但用pai-megatron是60s；且loss比较大，lamafactory中用deepspeed 的loss是1左右，但用pai-megatron的loss是10左右；

tp和pp会带来这么大的区别吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

ARQlalala commented Sep 20, 2024

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

Comments

ARQlalala commented Sep 20, 2024