中文羊驼大模型三期 v1.0
中文羊驼大模型已正式发布,本次开源了Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令模型)。
- Llama-3-Chinese-8B:基座模型,使用120GB语料进行增量训练
- Llama-3-Chinese-8B-Instruct:指令/chat模型,在Llama-3-Chinese-8B的基础上进一步通过指令精调(500万条指令)获得
下载方式
模型名称 | 类型 | 参数量 | 完整版 | LoRA版 | GGUF版 |
---|---|---|---|---|---|
Llama-3-Chinese-8B | 基座模型 | 8B | [🤗Hugging Face] [🤖ModelScope] |
[🤗Hugging Face] [🤖ModelScope] |
[🤗Hugging Face] [🤖ModelScope] |
Llama-3-Chinese-8B-Instruct | 指令模型 | 8B | [🤗Hugging Face] [🤖ModelScope] |
[🤗Hugging Face] [🤖ModelScope] |
[🤗Hugging Face] [🤖ModelScope] |
模型特点
📖 使用原版Llama-3词表
- Llama-3相比其前两代显著扩充了词表大小,由32K扩充至128K,并且改为BPE词表
- 初步实验发现Llama-3词表的编码效率与我们扩充词表的中文LLaMA-2相当,效率约为中文LLaMA-2词表的95%(基于维基百科数据上的编码效率测试)
- 结合我们在中文Mixtral上的相关经验及实验结论1,我们并未对词表进行额外扩充
🚄 长上下文长度由二代4K扩展至8K
- Llama-3将原生上下文窗口长度从4K提升至8K,能够进一步处理更长的上下文信息
- 用户也可通过PI、NTK、YaRN等方法对模型进行长上下文的扩展,以支持更长文本的处理
⚡ 使用分组查询注意力机制
- Llama-3采用了Llama-2中大参数量版本应用的分组查询注意力(GQA)机制,能够进一步提升模型的效率
🗒 全新的指令模板
- Llama-3-Instruct采用了全新的指令模板,与Llama-2-chat不兼容,使用时应严格遵循官方指令模板