模型效果评估

评估数据集

分类和匹配采用clue数据集。

配置	模型	CLUEWSC2020	IFLYTEK	TNEWS	AFQMC	CMNLI	CSL	OCNLI	平均值
24L1024H	RoBERTa-wwm-ext-large	90.79	62.02	59.33	76.00	83.88	83.67	78.81	76.36
20L1024H	ERNIE 3.0-XBase	91.12	62.22	60.34	76.95	84.98	84.27	82.07	77.42
12L768H	RoBERTa-wwm-ext-base	88.55	61.22	58.08	74.75	81.66	81.63	77.25	74.73
12L768H	ERNIE 3.0-Base	88.18	60.72	58.73	76.53	80.31	83.30	83.65	75.63
6L768H	RBT6, Chinese	75.00	59.68	56.62	73.15	79.26	80.04	73.15	70.99
6L768H	ERNIE 3.0-Medium	79.93	60.14	57.16	74.56	80.87	81.23	77.02	72.99

以上所有任务均基于 Grid Search 方式进行超参寻优。分类任务训练每间隔 100 steps 评估验证集效果，取验证集最优效果作为表格中的汇报指标。
分类任务 Grid Search 超参范围: batch_size: 16, 32, 64; learning rates: 1e-5, 2e-5, 3e-5, 5e-5；因为 CLUEWSC2020 数据集较小，所以模型在该数据集上的效果对 batch_size 较敏感，所以对 CLUEWSC2020 评测时额外增加了 batch_size = 8 的超参搜索；因为CLUEWSC2020 和 IFLYTEK 数据集对 dropout 概率值较为敏感，所以对 CLUEWSC2020 和 IFLYTEK 数据集评测时增加dropout_prob = 0.0 的超参搜索。

分类和匹配任务:

TASK	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL
epoch	3	3	3	2	5	50	5
max_seq_length	128	128	128	128	128	128	256
warmup_proportion	0.1	0.1	0.1	0.1	0.1	0.1	0.1

Model	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL
ERNIE 3.0-Medium	bsz_32_lr_2e-05	bsz_16_lr_3e-05	bsz_16_lr_5e-05	bsz_16_lr_1e-05/bsz_64_lr_2e-05	bsz_64_lr_2e-05	bsz_8_lr_2e-05	bsz_32_lr_1e-05
ERNIE 3.0-Base	bsz_16_lr_2e-05	bsz_64_lr_3e-05	bsz_16_lr_5e-05	bsz_16_lr_2e-05	bsz_16_lr_2e-05	bsz_8_lr_2e-05(drop_out _0.1)	bsz_16_lr_3e-05
ERNIE 3.0-XBase	bsz_16_lr_1e-05	bsz_16_lr_2e-05	bsz_16_lr_3e-05	bsz_16_lr_1e-05	bsz_32_lr_2e-05	bsz_8_lr_2e-05	bsz_64_lr_1e-05