Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自定义词典问题 #698

Open
Danmo121 opened this issue May 20, 2024 · 5 comments
Open

自定义词典问题 #698

Danmo121 opened this issue May 20, 2024 · 5 comments

Comments

@Danmo121
Copy link

Danmo121 commented May 20, 2024

在使用用户词典时,会有一些句子无法分词,不知道是什么原因,有无具体的排查方向
Snipaste_2024-05-20_15-42-04

@AlongWY
Copy link
Contributor

AlongWY commented Jun 11, 2024

请给一些例子方便进行调试

@Danmo121
Copy link
Author

Danmo121 commented Jun 12, 2024 via email

@Danmo121
Copy link
Author

不好意思,我是在邮件中回复的,我以为是通过邮箱发送了文件。我后来调试发现是长度的问题,在不使用自定义词典时貌似能够正常将长句子切分后再分词,但是使用自定义词典就不可以,长句就报错。

@CodeSailor369
Copy link

不好意思,我是在邮件中回复的,我以为是通过邮箱发送了文件。我后来调试发现是长度的问题,在不使用自定义词典时貌似能够正常将长句子切分后再分词,但是使用自定义词典就不可以,长句就报错。

你好,我好像也遇到了和你一样的问题,遇到长句使用自定义词典代码就报错,请问除了遇到不能分词时就停用词典的方法外,还有别的方法能解决么,谢谢!

@Danmo121
Copy link
Author

不好意思,我是在邮件中回复的,我以为是通过邮箱发送了文件。我后来调试发现是长度的问题,在不使用自定义词典时貌似能够正常将长句子切分后再分词,但是使用自定义词典就不可以,长句就报错。

你好,我好像也遇到了和你一样的问题,遇到长句使用自定义词典代码就报错,请问除了遇到不能分词时就停用词典的方法外,还有别的方法能解决么,谢谢!

对句子进行切分,对长度大于510在处理时先按照标点符号,逗号,句号,分号,问号等进行切分,如果切分后还长,则按照长度再进行切分即可。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants