数据切分 #3542
-
这个项目里面对传入的txt中文文本文件中是怎么切分的?是按照字数来切分的吗 |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 1 reply
-
嘿,@zengpan-prog!很高兴再次见到你。希望你最近一切都好! 在Langchain-Chatchat项目中,传入的txt中文文本文件是通过
具体到代码实现, 因此,虽然字数限制( 具体的正则表达式如下: ([﹒﹔﹖﹗.。!?]["’”」』]{0,2}|(?=["‘“「『]{1,2}|$)) 这个正则表达式主要是根据中文和英文的句号、问号、感叹号等标点符号来分割文本。 你可以在这个链接中查看更多的信息:text_splitter/chinese_text_splitter.py Sources
|
Beta Was this translation helpful? Give feedback.
机器人提到了其中一种,但是也可以用langchain其他组件进行切分,这个可以设置,都是langchain的