Skip to content

Commit

Permalink
Merge pull request #9 from watermelon-ai/update-model-trianing
Browse files Browse the repository at this point in the history
update llm pre-training details
  • Loading branch information
wj-Mcat authored Sep 6, 2024
2 parents f437d33 + dae204c commit f0d14d1
Show file tree
Hide file tree
Showing 8 changed files with 406 additions and 142 deletions.
6 changes: 6 additions & 0 deletions docs/01-llm-intro/05-training/01-dataset.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,8 @@
title: "预训练数据准备"
---

import Hl from '@site/src/components/Highlight';

## 介绍

在大模型预训练阶段,数据准备是一个至关重要的环节,它涵盖了多个方面的内容,以确保模型能够学习到高质量、多样化的数据特征。具体来说,数据准备包含以下几个关键步骤和阶段:
Expand All @@ -19,6 +21,8 @@ title: "预训练数据准备"
| 有标注数据 | | 在训练阶段融入一些有标注相关数据,如文本分类、问答、槽位填充抽取等,以提升数据的多样性,同时提升上下文信息抽取的能力。 |
| 数据增强 | | 通过同义词替换、随机插入、随机删除、回译等方法扩充数据,增加模型对相似文本的理解能力,进而提升模型的泛化性。 |

预训练阶段旨在让大模型学习到基础的理解和生成相关的能力,而这些能力皆来自于预训练中的数据,此阶段的数据决定了模型的效果,所以相关数据集的规模、不同领域的数据配比以及数据质量对于模型训练的效果至关重要。

## 数据收集

数据准备的第一个阶段是:搜集相关数据。
Expand Down Expand Up @@ -175,6 +179,8 @@ Data Scheduling 是指在大模型预训练过程中,根据特定的策略和

在大模型预训练中,通常会使用来自不同数据源的数据进行训练。这些数据源可能包括网页文本、书籍、学术论文、代码等。为了平衡不同数据源对模型的影响,需要设置合适的数据混合比例。例如,LLaMA-1 模型的预训练数据就包括了超过80%的网页数据、6.5%的代码密集型数据、4.5%的书籍数据以及2.5%的科学数据。

* 数据课程(**Data Curriculum**

训练数据中应尽量增加数据的多样性,不应在同样领域的数据上构建过多的数据,进而在这个任务上过拟合,影响了其它领域上的能力。 [<sup>7</sup>](#pretrainer-guide-to-train-data)

此外,不同领域的数据配比也至关重要,通常的做法是使用一个小型代码模型在固定配比的数据集(此数据集的数量也是有 scaling law 算出来的)上面进行预训练,如果有比较好的正收益,此时大概率在大模型上面也会存在有一定的正收益。
Expand Down
142 changes: 0 additions & 142 deletions docs/01-llm-intro/05-training/02-pre-training.md

This file was deleted.

Loading

0 comments on commit f0d14d1

Please sign in to comment.