Skip to content

Commit

Permalink
update scaling laws
Browse files Browse the repository at this point in the history
  • Loading branch information
wj-Mcat committed Aug 27, 2024
1 parent d67e6d7 commit ce308ce
Showing 1 changed file with 25 additions and 8 deletions.
33 changes: 25 additions & 8 deletions docs/01-llm-intro/05-training/02-pre-training.md
Original file line number Diff line number Diff line change
Expand Up @@ -39,15 +39,32 @@ title: "预训练"

大语言模型预训练中的Scaling Law是一个重要的经验性规律,它揭示了系统性能与规模之间的幂律关系。通过理解和应用这一规律,可以指导大语言模型的设计、训练和资源分配,推动自然语言处理领域的持续进步和发展。

### 是否真的有效
### 应用场景

#### 效果可预测性

首先,对于大型模型来说,严格检查各种训练技巧或变体是不可行的,如果从小型模型中获得的经验也能应用于大型模型,那将非常有帮助。例如,可以训练小型代理模型,为大型模型找到最佳的数据混合计划[<sup>1</sup>](#doremi)

随着训练时长的增加,训练过程中可能会出现很多不稳定的因素:
1. loss 突然激增,出现不稳定的情况
2. 训练收益放缓(loss 趋于平稳)
3. 如果在数据集上面继续训练的话,很可能会出现收益递减的情况,所以要有一个监控机制。

基于 scaling law 规律,在不同size 模型上的效果表现存在一定的关联性,此时就可以用小模型的训练来监控大模型的训练过程。

#### 夹缝中的优化方法

当所有的数据都准备好了,也满足scaling laws 的公式,此时如何进一步优化模型训练的效果,此时就只有基于有限数据做一些 ***调整***,进而让其在发挥出最大的数据效果,此时通常使用 **数据混合** 方法。

**数据混合**方法中最关键的为不同领域数据配比,而此比例永远是一个谜,不同数据之间可能会存在 ***正相关、负相关以及不相关*** [<sup>2</sup>](#data-mixing-laws) 等关系,如何验证大语言模型在此比例下的训练有正效益,此时便可使用小模型对其进行模拟,进而得出最优混合配比策略。

:::warning 提醒

当然这个也不一定是正确的,因为目前谁也不知道 ground truth 的方法是什么,只有通过小型代理模型来做先验训练进而得出一些经验,此时再来指导大模型进行训练。

:::

## 参考文章

<!-- * [1] []() <div id="" />
* [1] []() <div id="" />
* [1] []() <div id="" />
* [1] []() <div id="" />
* [1] []() <div id="" />
* [1] []() <div id="" />
* [1] []() <div id="" /> -->
* [1] [Doremi: Optimizing data mixtures speeds up language model pretraining](https://arxiv.org/abs/2305.10429) <div id="doremi" />
* [2] [数据混合定律:通过预测语言模型表现优化数据配比](https://open-moss.com/cn/data-mixing-laws/) <div id="data-mixing-laws" />

0 comments on commit ce308ce

Please sign in to comment.