- 训练: bash run_train.sh
- 预测:预测暂时封装为http接口,请根据需要自己修改
本项目为原项目地址的改进版本:
- 修改解码方案,将片段分类+负采样方案用于嵌套实体识别。此处为详细介绍。
- 优化显存占用,原项目直接使用指针标注网络,空间复杂度为$O(L^3)$,对文本长度限制很不友好。 本项目将片段分类修改为分堆并行,空间复杂度仅由Encoder决定。
- 片段分类增加相对位置编码。原方案的片段分类仅有BERT嵌入层的绝对位置编码,本项目通过加入相对位置编码,提升实体识别的准确率。
@inproceedings{li2021empirical,
title={Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition},
author={Yangming Li and lemao liu and Shuming Shi},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=5jRVa89sZk}
}