基于dl4j-example中的示例,训练数据较少,从某东上拉取了几百条产品及类型划分,可以用于文本分类,搜索意图识别
train.txt示例,第一列表示产品分类,后边则是分词后的产品名称
eg.衣服 海澜之家 旗下 品牌 海澜 优选 生活馆 多色 条纹 短袖 t 恤 男 浅灰 条纹 07170 / 95
1.运行Word2VecUtil.main生成word2vec.bin模型文件,data目录已存在,训练数据采用train.txt中的产品名称
2.运行CnnSentenceClassificationExample.main训练模型并输出测试结果
CNN Classify Result : [衣服(0.996828), 家用电器(0.001164), 电脑(6.77E-4), 玩具(5.43E-4), 图书(5.08E-4), 手机(2.8E-4), ]
CNN Classify Result : [衣服(0.995663), 家用电器(0.001585), 玩具(0.001203), 电脑(8.92E-4), 手机(3.49E-4), 图书(3.08E-4), ]
CNN Classify Result : [衣服(0.993972), 家用电器(0.002658), 电脑(0.001367), 玩具(0.001191), 手机(4.29E-4), 图书(3.83E-4), ]
CNN Classify Result : [衣服(0.996824), 家用电器(0.001602), 玩具(6.34E-4), 电脑(6.31E-4), 手机(1.81E-4), 图书(1.28E-4), ]
CNN Classify Result : [玩具(0.980596), 家用电器(0.013514), 图书(0.003079), 衣服(0.002146), 电脑(5.48E-4), 手机(1.17E-4), ]
CNN Classify Result : [玩具(0.933394), 家用电器(0.054057), 图书(0.006034), 电脑(0.003206), 衣服(0.00254), 手机(7.69E-4), ]
CNN Classify Result : [玩具(0.962732), 家用电器(0.028758), 图书(0.004047), 电脑(0.002361), 衣服(0.001686), 手机(4.17E-4), ]
CNN Classify Result : [玩具(0.984875), 图书(0.006191), 家用电器(0.005006), 电脑(0.002104), 手机(0.00108), 衣服(7.44E-4), ]
CNN Classify Result : [手机(0.994408), 电脑(0.004041), 家用电器(7.65E-4), 玩具(4.07E-4), 衣服(2.5E-4), 图书(1.3E-4), ]
CNN Classify Result : [手机(0.99043), 电脑(0.006549), 图书(0.00191), 家用电器(4.88E-4), 衣服(3.85E-4), 玩具(2.37E-4), ]
CNN Classify Result : [手机(0.970446), 电脑(0.009435), 图书(0.009028), 家用电器(0.00737), 衣服(0.002776), 玩具(9.44E-4), ]
CNN Classify Result : [家用电器(0.990337), 玩具(0.003195), 手机(0.002408), 图书(0.001541), 衣服(0.001472), 电脑(0.001047), ]
CNN Classify Result : [家用电器(0.993301), 玩具(0.003286), 手机(0.001287), 电脑(8.19E-4), 衣服(7.49E-4), 图书(5.58E-4), ]
CNN Classify Result : [图书(0.985099), 玩具(0.00417), 家用电器(0.003777), 衣服(0.003582), 手机(0.001844), 电脑(0.001527), ]
CNN Classify Result : [家用电器(0.575636), 图书(0.412113), 玩具(0.008458), 衣服(0.001623), 电脑(0.001248), 手机(9.23E-4), ]
CNN Classify Result : [图书(0.98155), 手机(0.007936), 家用电器(0.00562), 衣服(0.002107), 玩具(0.001431), 电脑(0.001355), ]