-
Notifications
You must be signed in to change notification settings - Fork 7
关于jiojio分词器的一些问答
冬日新雨 edited this page May 5, 2022
·
3 revisions
- 制作一个在 CPU 上的高速、优质分词工具。
- 答:很多 NLP 任务可以采用 Bert、GPT、Seq2Seq 来完成,但这不代表所有任务都可以依赖模型。很多信息抽取、解析依然需要基于高效的分词来处理,需要词典、正则,需要大规模的泛化,那么高效的分词工具就依然有用武之地。
- 答:制作一个分词工具,在实际语料中达到 90%~94% 的 F1 值效果不难,但对于应用和落地,则需要 95%~99.9% 的 F1 值效果,这个优化过程需要详细的调试和分析,消耗大量的精力。
- 另一方面,NLP 领域的模型研究逐渐趋向于超大模型,强依赖 GPU 等设备;对于无 GPU 环境下高效的分词始终缺失。开发此款分词与词性标注工具,目的在于在 CPU 上实现高效分词。
- 答:分词工具的模型优化主要核心点在于新语料数据的更新。因此,本工具提供了界面化的新语料提交接口。用户可以自主向云端提供新语料,模型计算错误的语料,本工具会定期进行模型的优化和重新训练。
- 答:很多定制化 NLP 任务依赖高速、优质的分词工具,常见解决方案见JioNLP。
-
答:可以,使用
jiojio.train
来完成。不过目前可能存在一些坑,可参考jiojio/example
的例子来进行训练。