链接:https://pan.baidu.com/s/1SfywE5AoKXF3e9IyjeECvg
提取码:jkor
- data:包括爬虫数据、扩充数据、官方数据
- security:爬取百度、百度知道、搜狗数据
- wiki:获取维基百科数据进行分词和分字处理,并训练词向量和字向量模型
- process:对爬虫数据和官方数据进行处理
- model:单个强模型,微调得到多个弱模型,投票方式融合
一、维基百科数据下载地址
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
二、开源解压项目
https://github.com/attardi/wikiextractor
1、直接复制WikiExtractor.py文件即可
2、解压文件E:\wikiextractor>python WikiExtractor.py -cb 1500M -o extracted E:\zhwiki-latest-pages-articles.xml.bz2
3、得到E:\wikiextractor\extracted\AA\wiki_00.bz2,解压wiki_00.bz2得到wiki_00,重命名为wiki.txt
三、下载opencc
1、下载opencc windows版
2、将bin目录路径添加到环境变量
四、简繁体转换
E:\wiki\extracted\AA> opencc -i wiki.txt -o wiki_jian.txt -c E:\wiki\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json
五、分词、分字
将wiki_jian.txt按照分词和分字两种方法进行切分,并保存到txt文件中
单模型 | 正确率 | 召回率 | F1值 |
---|---|---|---|
模型1 | 0.862 | 0.767 | 0.812 |
模型2 | 0.859 | 0.758 | 0.805 |
模型3 | 0.964 | 0.370 | 0.535 |
模型4 | 0.931 | 0.570 | 0.707 |
模型5 | 0.924 | 0.611 | 0.735 |
融合效果 | 正确率 | 召回率 | F1值 |
---|---|---|---|
top1(sim>0.8) | 0.895 | 0.812 | 0.851 |
top5(sim>0.6) | 0.984 | 0.962 | 0.973 |