Skip to content

Latest commit

 

History

History
59 lines (35 loc) · 3.78 KB

relation-extraction.md

File metadata and controls

59 lines (35 loc) · 3.78 KB

 

关系抽取

1. DuIE

  • 数据集简介:

    DuIE是由百度构建的目前业界规模最大的中文关系抽取数据集,其任务目标是给定关系类型集合,从自然语言文本中抽取出符合schema约束的SPO三元组知识,其中包含5种复杂关系类型。

  • 数据集详情:

    名称 规模 文本来源 评测 下载 论文
    DuIE 48种关系类型、21万句子,40wSPO实例 百度百科+百度贴吧+通用网页 LIC2020 链接 链接
  • 基于该数据集发表的相关论文:

    • Shuangjie Li, Wei He, Yabing Shi, Wenbin Jiang, Haijin Liang, Ye Jiang, Yang Zhang, Yajuan Lyu, Yong Zhu. DuIE: A Large-Scale Chinese Dataset for Information Extraction[C]//CCF International Conference on Natural Language Processing and Chinese Computing. Springer, Cham, 2019: 791-800.

2. ACE 2005 Multilingual Training Corpus

  • 数据集简介:

    ACE 2005 Multilingual Training Corpus包含完整的英文、阿拉伯文和中文训练数据,用于2005年自动内容提取(ACE)技术评估。其中,中文语料库提供了丰富的标注信息,包含了6种关系类型,18种子关系类型,633篇文章,主要目标是实体识别及句子中的实体间的关系分类任务。

  • 数据集详情:

名称 文本来源 规模 评测 下载 论文
ACE 2005 Multilingual Training Corpus 新闻+博客 6种关系类型,18种子关系类型,633篇文章 ACE 2005 链接 链接

3. TAC KBP Chinese Regular Slot Filling

  • 数据集简介:

    2009年起,ACE并入TAC (Text Analysis Conference)会议,其中关系抽取任务并入到 KBP(knowledgeBase Population)领域的槽填充(Slot Filling)。其目标是给定命名实体及预定义的属性集合,从给定语料中抽取填充相应属性值信息。

  • 数据集详情:

名称 文本来源 规模 评测 下载 论文
TAC KBP Chinese Regular Slot Filling 论坛 & 新闻网页 2个实体类别(PER的25中属性和ORG的16中属性) TAC2019 链接 -

4. Chinese-Literature-NER-RE-Dataset

  • 数据集简介:

    Chinese-Literature-NER-RE-Dataset是由北大构建的,基于中文文学作品文本的命名实体识别和关系提取数据集。

  • 数据集详情:

名称 文本来源 规模 评测 下载 论文
Chinese-Literature-NER-RE-Dataset 通用网页 7实体类型,9关系类型,726文章,2.9万句子 N/A 链接 链接
  • 基于该数据集发表的相关论文:

    • Jingjing Xu, Ji Wen, Xu Sun, Qi Su. A discourse-level named entity recognition and relation extraction dataset for chinese literature text[J]. Computation and Language:1711.07010, 2017.

回到首页