-
数据集简介:
DuIE是由百度构建的目前业界规模最大的中文关系抽取数据集,其任务目标是给定关系类型集合,从自然语言文本中抽取出符合schema约束的SPO三元组知识,其中包含5种复杂关系类型。
-
数据集详情:
名称 规模 文本来源 评测 下载 论文 DuIE 48种关系类型、21万句子,40wSPO实例 百度百科+百度贴吧+通用网页 LIC2020 链接 链接 -
基于该数据集发表的相关论文:
- Shuangjie Li, Wei He, Yabing Shi, Wenbin Jiang, Haijin Liang, Ye Jiang, Yang Zhang, Yajuan Lyu, Yong Zhu. DuIE: A Large-Scale Chinese Dataset for Information Extraction[C]//CCF International Conference on Natural Language Processing and Chinese Computing. Springer, Cham, 2019: 791-800.
-
数据集简介:
ACE 2005 Multilingual Training Corpus包含完整的英文、阿拉伯文和中文训练数据,用于2005年自动内容提取(ACE)技术评估。其中,中文语料库提供了丰富的标注信息,包含了6种关系类型,18种子关系类型,633篇文章,主要目标是实体识别及句子中的实体间的关系分类任务。
-
数据集详情:
名称 | 文本来源 | 规模 | 评测 | 下载 | 论文 |
---|---|---|---|---|---|
ACE 2005 Multilingual Training Corpus | 新闻+博客 | 6种关系类型,18种子关系类型,633篇文章 | ACE 2005 | 链接 | 链接 |
-
数据集简介:
2009年起,ACE并入TAC (Text Analysis Conference)会议,其中关系抽取任务并入到 KBP(knowledgeBase Population)领域的槽填充(Slot Filling)。其目标是给定命名实体及预定义的属性集合,从给定语料中抽取填充相应属性值信息。
-
数据集详情:
名称 | 文本来源 | 规模 | 评测 | 下载 | 论文 |
---|---|---|---|---|---|
TAC KBP Chinese Regular Slot Filling | 论坛 & 新闻网页 | 2个实体类别(PER的25中属性和ORG的16中属性) | TAC2019 | 链接 | - |
-
数据集简介:
Chinese-Literature-NER-RE-Dataset是由北大构建的,基于中文文学作品文本的命名实体识别和关系提取数据集。
-
数据集详情:
名称 | 文本来源 | 规模 | 评测 | 下载 | 论文 |
---|---|---|---|---|---|
Chinese-Literature-NER-RE-Dataset | 通用网页 | 7实体类型,9关系类型,726文章,2.9万句子 | N/A | 链接 | 链接 |
-
基于该数据集发表的相关论文:
- Jingjing Xu, Ji Wen, Xu Sun, Qi Su. A discourse-level named entity recognition and relation extraction dataset for chinese literature text[J]. Computation and Language:1711.07010, 2017.