-
Notifications
You must be signed in to change notification settings - Fork 596
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我自己train了一下,为什么出来的结果不像你们训练出的那样智能? #42
Comments
@profection 我们按每秒6000 frame的速度训练了大约两个月 |
哦,那时间有点长的啊,两月后最好的loss到什么程度了? |
补充一下,还有一个很奇怪的现象,如果出牌中有QQQ9997766635,对家出了8884,这边会直接出999Q,导致对家出TTT4后自己无牌可出,这是什么bug?能修复吗? |
|
@profection loss并不是越低越好 得看胜率。这种情况就是没学好,神经网络不能保证百分之百对 |
哦,那你们怎么判断什么时候算已经训练完了?或者什么时候该结束训练? |
@profection 这个只能靠和baseline的胜率判断 |
和我想一块去了,刚改了代码,三个角色有两个角色用baseline当老师,另一个当学生,我跑跑试试 |
另外有个关于神经网络结构的问题 |
@profection 复杂的网络比如resnet效果会更好。只是我们没有怎么调网络结构。 |
哦,我还以为你们都试过,现在的网络结构是排除出来的,因为我试了一下改网络结构,训练出来效果不是很好 |
我又回来了= =,大神还有个问题,我训练这么久,loss一直在0.6徘徊(训练的是wp),为什么啊?这个loss不收敛吗? |
@profection 强化学习是这样的,loss不会掉,得根据得分判断学习进程 |
明白了,谢谢,我再多训练几天看看 |
请问是如何改的用baseline当老师啊,能否告知一下 |
我训练的是wp,代码是你们的源码,训练后相比训练前的ckpt很奇怪
第一个表现,不管是地主还是农民,在出牌预测时,胜率都变为不高于50%
第二个表现,总是出大牌,压制对方,即使自己是农民,也会压制队友,导致最后无牌可出
第三个表现,有炸会拆着走,比如自己手牌剩下最大的2炸和一个对三,会直接走四带二
这是我训练了一小时之后尝试的效果,loss是0.9
所以请问你们训练多久?loss到多少算成功?是需要什么trick吗?
The text was updated successfully, but these errors were encountered: