diff --git a/docs/01-llm-intro/05-training/02-pre-training.md b/docs/01-llm-intro/05-training/02-pre-training.md index 629c588..a876447 100644 --- a/docs/01-llm-intro/05-training/02-pre-training.md +++ b/docs/01-llm-intro/05-training/02-pre-training.md @@ -39,15 +39,32 @@ title: "预训练" 大语言模型预训练中的Scaling Law是一个重要的经验性规律,它揭示了系统性能与规模之间的幂律关系。通过理解和应用这一规律,可以指导大语言模型的设计、训练和资源分配,推动自然语言处理领域的持续进步和发展。 -### 是否真的有效 +### 应用场景 +#### 效果可预测性 + +首先,对于大型模型来说,严格检查各种训练技巧或变体是不可行的,如果从小型模型中获得的经验也能应用于大型模型,那将非常有帮助。例如,可以训练小型代理模型,为大型模型找到最佳的数据混合计划[1](#doremi) + +随着训练时长的增加,训练过程中可能会出现很多不稳定的因素: +1. loss 突然激增,出现不稳定的情况 +2. 训练收益放缓(loss 趋于平稳) +3. 如果在数据集上面继续训练的话,很可能会出现收益递减的情况,所以要有一个监控机制。 + +基于 scaling law 规律,在不同size 模型上的效果表现存在一定的关联性,此时就可以用小模型的训练来监控大模型的训练过程。 + +#### 夹缝中的优化方法 + +当所有的数据都准备好了,也满足scaling laws 的公式,此时如何进一步优化模型训练的效果,此时就只有基于有限数据做一些 ***调整***,进而让其在发挥出最大的数据效果,此时通常使用 **数据混合** 方法。 + +**数据混合**方法中最关键的为不同领域数据配比,而此比例永远是一个谜,不同数据之间可能会存在 ***正相关、负相关以及不相关*** [2](#data-mixing-laws) 等关系,如何验证大语言模型在此比例下的训练有正效益,此时便可使用小模型对其进行模拟,进而得出最优混合配比策略。 + +:::warning 提醒 + +当然这个也不一定是正确的,因为目前谁也不知道 ground truth 的方法是什么,只有通过小型代理模型来做先验训练进而得出一些经验,此时再来指导大模型进行训练。 + +::: ## 参考文章 - \ No newline at end of file +* [1] [Doremi: Optimizing data mixtures speeds up language model pretraining](https://arxiv.org/abs/2305.10429)
+* [2] [数据混合定律:通过预测语言模型表现优化数据配比](https://open-moss.com/cn/data-mixing-laws/) \ No newline at end of file