ColossalllaMA-2-7b-base: 为什么咱们添加了少量中文数据之后，在英文的MMLU上增量这么大呀? #4868

tomyoung903 · 2023-10-07T12:20:59Z

tomyoung903
Oct 7, 2023

为什么咱们添加了少量中文数据之后，在英文的MMLU上增量这么大呀?

潞晨科技公众号推送《千元预算半天训练，效果媲美主流大模型，开源可商用中文LLaMA-2》
https://mp.weixin.qq.com/s/25r6hJqNDQhqR4EHu0uctA

TongLi3701 · 2023-10-08T14:22:39Z

TongLi3701
Oct 8, 2023
Maintainer

你好，首先，感谢对于 Colossal-LLaMA-2 的关注。

我们在增量预训练阶段，不仅仅添加了中文数据，还有少量的英文数据，主要用于 replay 的作用，缓解模型的灾难性遗忘的问题。这部分数据经过精心的筛选，以求最大程度的唤醒模型在预训练第一阶段（LLaMA-2）学到的知识。

0 replies

tomyoung903 · 2023-10-09T11:31:18Z

tomyoung903
Oct 9, 2023
Author

That seems like a major new algorithm to me. Do you plan on open-sourcing the whole training process? Is there gonna be a detailed explanation on this on a paper/blog in the future? Cheers, Tom Young tomyoung903.github.io

…

On Sun, Oct 8, 2023 at 10:22 PM Tong Li ***@***.***> wrote: 你好，首先，感谢对于 Colossal-LLaMA-2 的关注。我们在增量预训练阶段，不仅仅添加了中文数据，还有少量的英文数据，主要用于 replay 的作用，缓解模型的灾难性遗忘的问题。这部分数据经过精心的筛选，以求最大程度的唤醒模型在预训练第一阶段（LLaMA-2）学到的知识。 — Reply to this email directly, view it on GitHub <#4868 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AKQ3UYEMEMTT26L5R2CNRDLX6KZLTAVCNFSM6AAAAAA5W4P3J2VHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM3TEMRTGE3DG> . You are receiving this because you authored the thread.Message ID: ***@***.***>

1 reply

TongLi3701 Oct 9, 2023
Maintainer

Hi Tom,

Yes, we are planning to write a technical report for our work.

Thanks.

tomyoung903 · 2023-10-09T11:34:37Z

tomyoung903
Oct 9, 2023
Author

另外为啥如果只是防止遗忘/唤醒的话，为啥比遗忘前好了这么多

1 reply

TongLi3701 Oct 9, 2023
Maintainer

唤醒的目的就在于能加强对于之前知识的理解，不仅仅是为了防止遗忘，也会起到加强的作用，因而会之前的效果要更好~

tomyoung903 · 2023-10-10T06:58:14Z

tomyoung903
Oct 10, 2023
Author

Thanks! Look forward to your report!

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ColossalllaMA-2-7b-base: 为什么咱们添加了少量中文数据之后，在英文的MMLU上增量这么大呀? #4868

{{title}}

Replies: 4 comments 2 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

ColossalllaMA-2-7b-base: 为什么咱们添加了少量中文数据之后，在英文的MMLU上增量这么大呀? #4868

tomyoung903 Oct 7, 2023

Replies: 4 comments · 2 replies

TongLi3701 Oct 8, 2023 Maintainer

tomyoung903 Oct 9, 2023 Author

TongLi3701 Oct 9, 2023 Maintainer

tomyoung903 Oct 9, 2023 Author

TongLi3701 Oct 9, 2023 Maintainer

tomyoung903 Oct 10, 2023 Author

tomyoung903
Oct 7, 2023

Replies: 4 comments 2 replies

TongLi3701
Oct 8, 2023
Maintainer

tomyoung903
Oct 9, 2023
Author

TongLi3701 Oct 9, 2023
Maintainer

tomyoung903
Oct 9, 2023
Author

TongLi3701 Oct 9, 2023
Maintainer

tomyoung903
Oct 10, 2023
Author