From da41f3878f4c6cae0615bad7222d9fa95e605cb2 Mon Sep 17 00:00:00 2001
From: Tong Guo <779222056@qq.com>
Date: Sun, 28 Jun 2020 17:13:48 +0800
Subject: [PATCH] Update create_pretraining_data.py

---
 create_pretraining_data.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/create_pretraining_data.py b/create_pretraining_data.py
index 42d147d..d22ca5d 100644
--- a/create_pretraining_data.py
+++ b/create_pretraining_data.py
@@ -249,7 +249,7 @@ def _is_chinese_char(cp):
 
 def get_new_segment(segment): #  新增的方法 ####
     """
-    输入一句话，返回一句经过处理的话: 为了支持中文全称mask，将被分开的词，将上特殊标记("#")，使得后续处理模块，能够知道哪些字是属于同一个词的。
+    输入一句话，返回一句经过处理的话: 为了支持中文全称mask，将被分开的词，加上特殊标记("#")，使得后续处理模块，能够知道哪些字是属于同一个词的。
     :param segment: 一句话
     :return: 一句处理过的话
     """
@@ -627,4 +627,4 @@ def main(_):
     flags.mark_flag_as_required("input_file")
     flags.mark_flag_as_required("output_file")
     flags.mark_flag_as_required("vocab_file")
-    tf.app.run()
\ No newline at end of file
+    tf.app.run()