文心中的所有文件要求必须是utf-8格式,包括所有的样本集、词表文件、label_map等映射文件。 文心提供了文件格式转换的工具,位置在./applications/tools/data/data_cleaning
- 识别输入文本的编码格式:
# -i 指定输入文件路径
python file_encoding.py -i input_file
- 将utf8格式的文本转成gb18030,如果输入文本不是utf8格式的,直接报错返回:
python file_encoding.py -i input_file -o output_file --utf8_to_gb18030
# 或者
python file_encoding.py -i input_file -o output_file -u2g
- 将gb18030的文本转成utf8,如果输入文本不是gb18030格式的,直接报错返回:
python file_encoding.py -i input_file -o output_file --gb18030_to_utf8
# 或者
python file_encoding.py -i input_file -o output_file -g2u