update scaling laws

wj-Mcat · Aug 27, 2024 · ce308ce · ce308ce
1 parent d67e6d7
commit ce308ce
Showing 1 changed file with 25 additions and 8 deletions.
diff --git a/docs/01-llm-intro/05-training/02-pre-training.md b/docs/01-llm-intro/05-training/02-pre-training.md
@@ -39,15 +39,32 @@ title: "预训练"
 
 大语言模型预训练中的Scaling Law是一个重要的经验性规律，它揭示了系统性能与规模之间的幂律关系。通过理解和应用这一规律，可以指导大语言模型的设计、训练和资源分配，推动自然语言处理领域的持续进步和发展。
 
-### 是否真的有效
+### 应用场景
 
+#### 效果可预测性
+
+首先，对于大型模型来说，严格检查各种训练技巧或变体是不可行的，如果从小型模型中获得的经验也能应用于大型模型，那将非常有帮助。例如，可以训练小型代理模型，为大型模型找到最佳的数据混合计划[<sup>1</sup>](#doremi)
+
+随着训练时长的增加，训练过程中可能会出现很多不稳定的因素：
+1. loss 突然激增，出现不稳定的情况
+2. 训练收益放缓（loss 趋于平稳）
+3. 如果在数据集上面继续训练的话，很可能会出现收益递减的情况，所以要有一个监控机制。
+
+基于 scaling law 规律，在不同size 模型上的效果表现存在一定的关联性，此时就可以用小模型的训练来监控大模型的训练过程。
+
+#### 夹缝中的优化方法
+
+当所有的数据都准备好了，也满足scaling laws 的公式，此时如何进一步优化模型训练的效果，此时就只有基于有限数据做一些 ***调整***，进而让其在发挥出最大的数据效果，此时通常使用 **数据混合** 方法。
+
+**数据混合**方法中最关键的为不同领域数据配比，而此比例永远是一个谜，不同数据之间可能会存在 ***正相关、负相关以及不相关*** [<sup>2</sup>](#data-mixing-laws) 等关系，如何验证大语言模型在此比例下的训练有正效益，此时便可使用小模型对其进行模拟，进而得出最优混合配比策略。
+
+:::warning 提醒
+
+当然这个也不一定是正确的，因为目前谁也不知道 ground truth 的方法是什么，只有通过小型代理模型来做先验训练进而得出一些经验，此时再来指导大模型进行训练。
+
+:::
 
 ## 参考文章
 
-<!-- * [1] []() <div id="" />
-* [1] []() <div id="" />
-* [1] []() <div id="" />
-* [1] []() <div id="" />
-* [1] []() <div id="" />
-* [1] []() <div id="" />
-* [1] []() <div id="" /> -->
+* [1] [Doremi: Optimizing data mixtures speeds up language model pretraining](https://arxiv.org/abs/2305.10429) <div id="doremi" />
+* [2] [数据混合定律：通过预测语言模型表现优化数据配比](https://open-moss.com/cn/data-mixing-laws/) <div id="data-mixing-laws" />