QwenTokenizer与Qwen2Tokenizer #295

sexan · 2024-07-23T12:09:03Z

您好，感谢提供pai-megatron框架，关于qwen分词器，我有下面几点疑问，还望解答，谢谢！
1）请问qwen系列模型（qwen、qwen1.5、qwen2）的词表和分词方式一直都是一样的吗?
2）如果是一样的，为什么会有两个分词器：QwenTokenizer、Qwen2Tokenizer？
3）如果我想用qwen1.5模型，该选择哪个分词器？

divisionblur · 2024-07-26T06:50:13Z

您好，感谢提供pai-megatron框架，关于qwen分词器，我有下面几点疑问，还望解答，谢谢！ 1）请问qwen系列模型（qwen、qwen1.5、qwen2）的词表和分词方式一直都是一样的吗? 2）如果是一样的，为什么会有两个分词器：QwenTokenizer、Qwen2Tokenizer？ 3）如果我想用qwen1.5模型，该选择哪个分词器？

Qwen2Tokenizer看起来是适配了megatron-core的，继承了MegatronTokenizer。

sexan · 2024-07-26T07:13:36Z

您好，感谢提供pai-megatron框架，关于qwen分词器，我有下面几点疑问，还望解答，谢谢！ 1）请问qwen系列模型（qwen、qwen1.5、qwen2）的词表和分词方式一直都是一样的吗? 2）如果是一样的，为什么会有两个分词器：QwenTokenizer、Qwen2Tokenizer？ 3）如果我想用qwen1.5模型，该选择哪个分词器？

Qwen2Tokenizer看起来是适配了megatron-core的，继承了MegatronTokenizer。

这个继承是必须的吗，QwenTokenizer都没继承，为什么Qwen2Tokenizer开始继承了

KKCDD · 2024-08-12T08:24:13Z

在examples/qwen1_5的训练脚本里有，除了run_pretrain_megatron_qwen.sh里面用的llama_tokenizer，其他都用的qwen2tokenizer。
从hf的代码上来看，llama tokenizer和qwen2tokenizer一样，但是pai里面的qwen2tokenizer实现继承了megatron-core做了适配。
qwen用的tiktoken方式，词表也不一样，现在应该都是用qwen2tokenizer了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

QwenTokenizer与Qwen2Tokenizer #295

QwenTokenizer与Qwen2Tokenizer #295

sexan commented Jul 23, 2024

divisionblur commented Jul 26, 2024

sexan commented Jul 26, 2024

KKCDD commented Aug 12, 2024

QwenTokenizer与Qwen2Tokenizer #295

QwenTokenizer与Qwen2Tokenizer #295

Comments

sexan commented Jul 23, 2024

divisionblur commented Jul 26, 2024

sexan commented Jul 26, 2024

KKCDD commented Aug 12, 2024