From da41f3878f4c6cae0615bad7222d9fa95e605cb2 Mon Sep 17 00:00:00 2001 From: Tong Guo <779222056@qq.com> Date: Sun, 28 Jun 2020 17:13:48 +0800 Subject: [PATCH] Update create_pretraining_data.py --- create_pretraining_data.py | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/create_pretraining_data.py b/create_pretraining_data.py index 42d147d..d22ca5d 100644 --- a/create_pretraining_data.py +++ b/create_pretraining_data.py @@ -249,7 +249,7 @@ def _is_chinese_char(cp): def get_new_segment(segment): # 新增的方法 #### """ - 输入一句话,返回一句经过处理的话: 为了支持中文全称mask,将被分开的词,将上特殊标记("#"),使得后续处理模块,能够知道哪些字是属于同一个词的。 + 输入一句话,返回一句经过处理的话: 为了支持中文全称mask,将被分开的词,加上特殊标记("#"),使得后续处理模块,能够知道哪些字是属于同一个词的。 :param segment: 一句话 :return: 一句处理过的话 """ @@ -627,4 +627,4 @@ def main(_): flags.mark_flag_as_required("input_file") flags.mark_flag_as_required("output_file") flags.mark_flag_as_required("vocab_file") - tf.app.run() \ No newline at end of file + tf.app.run()