初次接触NLP,请多指教!
本项目为DataFountain比赛项目疫情期间网民情绪识别,给出抓取的有关新冠肺炎的微博作为训练集,要求对训练集进行情感分类,情感有积极(1)、中性(0)、消极(-1)三种。
用到的数据在data里,无标签的数据可以到官网下载,Bert模型BERT-Base, Chinese,详情请见google-research/bert。
竞赛数据以csv格式进行存储,包括nCoV_100k.labled.csv和nCoV_900k.unlabled.csv两个文件,其中:
- nCoV_100k.labled.csv:包含10万条用户标注的微博数据,具体格式如下:[微博id,微博发布时间,发布人账号,微博中文内容,微博图片,微博视频,情感倾向]
- 微博id,格式为整型。
- 微博发布时间,格式为xx月xx日 xx:xx。
- 发布人账号,格式为字符串。
- 微博中文内容,格式为字符串。
- 微博图片,格式为url超链接,[]代表不含图片。
- 微博视频,格式为url超链接,[]代表不含视频。
- 情感倾向,取值为{1,0,-1}。
- nCoV_900k.unlabled.csv为90万条未标注的微博数据,包含与“新冠肺炎”相关的90万条未标注的微博数据,具体格式如下: [微博id,微博发布时间,发布人账号,微博中文内容,微博图片,微博视频]
- 微博id,格式为整型。
- 微博发布时间,格式为xx月xx日 xx:xx。
- 发布人账号,格式为字符串。
- 微博中文内容,格式为字符串。
- 微博图片,格式为url超链接,[]代表不含图片。
- 微博视频,格式为url超链接,[]代表不含视频。
以csv文件格式提交,采用UTF8编码,形式如:
测试数据id | 情感极性 |
---|---|
09568 | 1 |
37361 | 0 |
第1次提交采用逻辑回归,准确率0.65471131。
第2次提交采用LSTM,准确率0.62066174。
第3次提交采用LSTM,准确率0.63237804,调整了Dropout。
第4次提交采用BiLSTM,准确率0.63532567,激活函数为sigmoid。
第5次提交采用BiLSTM,准确率0.63222879,激活函数为softmax。
第6次提交采用GBDT,准确率0.52225536。
第7次提交采用GBDT,准确率0.63357073,调参方法见GBDT调参过程。
第8次提交采用BERT,准确率0.72366178。
竞赛数据归数据提供单位所有,赛题及数据在官方竞赛平台进行免费开源,数据提供方授权参赛人员使用提供的数据进行指定比赛的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关数据提供单位。
- 主办单位:北京市经济和信息化局、中国计算机学会大数据专家委员会
- 承办单位:北京市大数据中心、中科大智慧城市研究院(芜湖)、北京市政交通一卡通有限公司、数联众创
- 战略合作:北京智源人工智能研究院
- 协办单位:中国科学院计算技术研究所、中国中文信息学会信息检索专业委员会、中国图象图形学学会可视化与可视分析专委会、百度地图、美团、百度人工智能开发平台、中关村科技软件、九次方大数据信息集团有限公司、中科天玑
- 官方竞赛平台:DataFountain
- 联合组织单位:中国中文信息学会信息检索专业委员会