加载成功模型，但因编码问题无法成功向量化词 #23

xuexingdong · 2016-10-20T02:23:03Z

使用时遇到一个奇怪的bug，在Eclipse中能运行成功，maven打成jar包放在控制台里运行模型就无法向量化词语了，经过不断调试发现以下解决方案
在Word2vec.java的readString方法中
sb.append(new String(bytes));
和
sb.append(new String(bytes, 0, i + 1));
改为
sb.append(new String(bytes, "UTF-8"));
和
sb.append(new String(bytes, 0, i + 1, "UTF-8"));

The text was updated successfully, but these errors were encountered:

ansjsun · 2017-03-04T02:42:52Z

thx

dhaimeng · 2017-12-06T03:42:53Z

你好，我用google训练好的二进制bin模型，在Word2vec.java的readFloat方法中报错，byte[] bytes = new byte[4]行内存溢出，改为byte[50]后readString()byte b = dis.readByte()报错java.io.EOFException
继续修改MAX_SIZE至100还是不行。请问是什么问题呢？

ansjsun · 2017-12-09T02:07:01Z

把代码发上来。。要是方便。把模型发我邮箱

dhaimeng · 2017-12-11T03:03:18Z

问题已经解决，感谢。原因是只改了eclipse的.ini配置文件，没有修改项目的JVM分配内存，修改大以后运行成功。

ansjsun mentioned this issue Mar 4, 2017

加载loadGoogleModel后的单词编码不对，不知是什么问题。 #22

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

加载成功模型，但因编码问题无法成功向量化词 #23

加载成功模型，但因编码问题无法成功向量化词 #23

xuexingdong commented Oct 20, 2016

ansjsun commented Mar 4, 2017

dhaimeng commented Dec 6, 2017

ansjsun commented Dec 9, 2017

dhaimeng commented Dec 11, 2017

加载成功模型，但因编码问题无法成功向量化词 #23

加载成功模型，但因编码问题无法成功向量化词 #23

Comments

xuexingdong commented Oct 20, 2016

ansjsun commented Mar 4, 2017

dhaimeng commented Dec 6, 2017

ansjsun commented Dec 9, 2017

dhaimeng commented Dec 11, 2017