Skip to content

Latest commit

 

History

History
67 lines (48 loc) · 5.08 KB

datasets.md

File metadata and controls

67 lines (48 loc) · 5.08 KB

PaddleNLP Datasets API

PaddleNLP提供了以下数据集的快速读取API,实际使用时请根据需要添加splits信息

阅读理解

数据集名称 简介 调用方法
SQuAD 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 paddlenlp.datasets.load_dataset('squad')
DuReader-yesno 千言数据集:阅读理解,判断答案极性 paddlenlp.datasets.load_dataset('dureader_yesno')
DuReader-robust 千言数据集:阅读理解,答案原文抽取 paddlenlp.datasets.load_dataset('dureader_robust')
CMRC2018 第二届“讯飞杯”中文机器阅读理解评测数据集 paddlenlp.datasets.load_dataset('cmrc2018')
DRCD 台達閱讀理解資料集 paddlenlp.datasets.load_dataset('drcd')

文本分类

数据集名称 简介 调用方法
CoLA 单句分类任务,二分类,判断句子是否合法 paddlenlp.datasets.load_dataset('glue','cola')
SST-2 单句分类任务,二分类,判断句子情感极性 paddlenlp.datasets.load_dataset('glue','sst-2')
MRPC 句对匹配任务,二分类,判断句子对是否是相同意思 paddlenlp.datasets.load_dataset('glue','mrpc')
STSB 计算句子对相似性,分数为1~5 paddlenlp.datasets.load_dataset('glue','sts-b')
QQP 判定句子对是否等效,等效、不等效两种情况,二分类任务 paddlenlp.datasets.load_dataset('glue','qqp')
MNLI 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 paddlenlp.datasets.load_dataset('glue','mnli')
QNLI 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 paddlenlp.datasets.load_dataset('glue','qnli')
RTE 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 paddlenlp.datasets.load_dataset('glue','rte')
WNLI 判断句子对是否相关,相关或不相关,二分类任务 paddlenlp.datasets.load_dataset('glue','wnli')
LCQMC A Large-scale Chinese Question Matching Corpus 语义匹配数据集 paddlenlp.datasets.load_dataset('lcqmc')
ChnSentiCorp 中文评论情感分析语料 paddlenlp.datasets.load_dataset('chnsenticorp')

序列标注

数据集名称 简介 调用方法
MSRA_NER MSRA 命名实体识别数据集 paddlenlp.datasets.load_dataset('msra_ner')
People's Daily 人民日报命名实体识别数据集 paddlenlp.datasets.load_dataset('peoples_daily_ner')

机器翻译

数据集名称 简介 调用方法
IWSLT15 IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 paddlenlp.datasets.load_dataset('iwslt15')
WMT14ENDE WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 paddlenlp.datasets.load_dataset('wmt14ende')

机器同传

数据集名称 简介 调用方法
BSTC 千言数据集:机器同传,包括transcription_translation和asr paddlenlp.datasets.load_dataset('bstc', 'asr')

文本生成

数据集名称 简介 调用方法
Poetry 中文诗歌古典文集数据 paddlenlp.datasets.load_dataset('poetry')
Couplet 中文对联数据集 paddlenlp.datasets.load_dataset('couplet')

语料库

数据集名称 简介 调用方法
PTB Penn Treebank Dataset paddlenlp.datasets.load_dataset('ptb')
Yahoo Answer 100k 从Yahoo Answer采样100K paddlenlp.datasets.load_dataset('yahoo_answer_100k')