Skip to content

Latest commit

 

History

History
45 lines (28 loc) · 3.02 KB

README_SOCRE.md

File metadata and controls

45 lines (28 loc) · 3.02 KB

模型效果评估

评估数据集

分类和匹配采用clue数据集。

CLUE 评测结果:

配置 模型 CLUEWSC2020 IFLYTEK TNEWS AFQMC CMNLI CSL OCNLI 平均值
24L1024H RoBERTa-wwm-ext-large 90.79 62.02 59.33 76.00 83.88 83.67 78.81 76.36
20L1024H ERNIE 3.0-XBase 91.12 62.22 60.34 76.95 84.98 84.27 82.07 77.42
12L768H RoBERTa-wwm-ext-base 88.55 61.22 58.08 74.75 81.66 81.63 77.25 74.73
12L768H ERNIE 3.0-Base 88.18 60.72 58.73 76.53 80.31 83.30 83.65 75.63
6L768H RBT6, Chinese 75.00 59.68 56.62 73.15 79.26 80.04 73.15 70.99
6L768H ERNIE 3.0-Medium 79.93 60.14 57.16 74.56 80.87 81.23 77.02 72.99

具体评测方式

  1. 以上所有任务均基于 Grid Search 方式进行超参寻优。分类任务训练每间隔 100 steps 评估验证集效果,取验证集最优效果作为表格中的汇报指标。
  2. 分类任务 Grid Search 超参范围: batch_size: 16, 32, 64; learning rates: 1e-5, 2e-5, 3e-5, 5e-5;因为 CLUEWSC2020 数据集较小,所以模型在该数据集上的效果对 batch_size 较敏感,所以对 CLUEWSC2020 评测时额外增加了 batch_size = 8 的超参搜索; 因为CLUEWSC2020 和 IFLYTEK 数据集对 dropout 概率值较为敏感,所以对 CLUEWSC2020 和 IFLYTEK 数据集评测时增加dropout_prob = 0.0 的超参搜索。

下游任务的固定超参配置

分类和匹配任务:

TASK AFQMC TNEWS IFLYTEK CMNLI OCNLI CLUEWSC2020 CSL
epoch 3 3 3 2 5 50 5
max_seq_length 128 128 128 128 128 128 256
warmup_proportion 0.1 0.1 0.1 0.1 0.1 0.1 0.1

ERNIE模型Grid Search 最优超参

Model AFQMC TNEWS IFLYTEK CMNLI OCNLI CLUEWSC2020 CSL
ERNIE 3.0-Medium bsz_32_lr_2e-05 bsz_16_lr_3e-05 bsz_16_lr_5e-05 bsz_16_lr_1e-05/bsz_64_lr_2e-05 bsz_64_lr_2e-05 bsz_8_lr_2e-05 bsz_32_lr_1e-05
ERNIE 3.0-Base bsz_16_lr_2e-05 bsz_64_lr_3e-05 bsz_16_lr_5e-05 bsz_16_lr_2e-05 bsz_16_lr_2e-05 bsz_8_lr_2e-05(drop_out _0.1) bsz_16_lr_3e-05
ERNIE 3.0-XBase bsz_16_lr_1e-05 bsz_16_lr_2e-05 bsz_16_lr_3e-05 bsz_16_lr_1e-05 bsz_32_lr_2e-05 bsz_8_lr_2e-05 bsz_64_lr_1e-05