ext_table是什么？ #87

tingxinli1 · 2023-06-26T06:21:28Z

能问问ext_table_ids和ext_table_subs是什么嘛，为什么我编码1000个样本后它的shape是(188,)呢？因为这个东西和样本数无法对齐，所以无法使用transformer的微调支持。如果每个样本输入的东西是一样的，后续可以考虑改为输入(1000,188)之类的输入么？这样更容易被其他社区支持。

gongbaitao · 2023-06-26T08:46:16Z

每个样本的输入是不一样的
ext_table是对词表的动态扩展，用于处理<mask_0>, <mask_1>, <mask_2>... <option_0>, <option_1>, <option_2>...这样的可变特殊token。
请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

tingxinli1 · 2023-06-29T04:10:32Z

请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

我就是通过您提到的这个方法完成的预处理，但因为ext_table相关的几个变量的shape，处理后的tensor很难被简单地输入到huggingface的trainer中。

tingxinli1 · 2023-06-29T04:16:02Z

每个样本的输入是不一样的

如果每个样本都分别对应一个输入，那为什么我输入1000条样本会得到一个shape为(188,)的tensor呢？如果每个样本都有对应的ex_table_ids，那一般来说感觉我得到的应该是1000个不同长度的tensor，就像token_ids一样。这一块不是特别理解。感谢您的耐心回复！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ext_table是什么？ #87

ext_table是什么？ #87

tingxinli1 commented Jun 26, 2023

gongbaitao commented Jun 26, 2023

tingxinli1 commented Jun 29, 2023 •

edited

Loading

tingxinli1 commented Jun 29, 2023

ext_table是什么？ #87

ext_table是什么？ #87

Comments

tingxinli1 commented Jun 26, 2023

gongbaitao commented Jun 26, 2023

tingxinli1 commented Jun 29, 2023 • edited Loading

tingxinli1 commented Jun 29, 2023

tingxinli1 commented Jun 29, 2023 •

edited

Loading