Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

我自己train了一下,为什么出来的结果不像你们训练出的那样智能? #42

Open
profection opened this issue Apr 3, 2022 · 15 comments

Comments

@profection
Copy link

我训练的是wp,代码是你们的源码,训练后相比训练前的ckpt很奇怪
第一个表现,不管是地主还是农民,在出牌预测时,胜率都变为不高于50%
第二个表现,总是出大牌,压制对方,即使自己是农民,也会压制队友,导致最后无牌可出
第三个表现,有炸会拆着走,比如自己手牌剩下最大的2炸和一个对三,会直接走四带二
这是我训练了一小时之后尝试的效果,loss是0.9
所以请问你们训练多久?loss到多少算成功?是需要什么trick吗?

@daochenzha
Copy link
Collaborator

@profection 我们按每秒6000 frame的速度训练了大约两个月

@profection
Copy link
Author

@profection 我们按每秒6000 frame的速度训练了大约两个月

哦,那时间有点长的啊,两月后最好的loss到什么程度了?
代码我稍微修改了一些,原有的代码逻辑是没有main.tar时自己生成ckpt,但我直接改成加载你们的ckpt,但使用你们提供的ckpt后,为什么评估loss是0.9,而且train了几分钟后得到的ckpt出牌预测时胜率变为不高于50%?很奇怪啊

@profection
Copy link
Author

补充一下,还有一个很奇怪的现象,如果出牌中有QQQ9997766635,对家出了8884,这边会直接出999Q,导致对家出TTT4后自己无牌可出,这是什么bug?能修复吗?

@profection
Copy link
Author

QQQ9997766635
这是生成的可出牌序列
[[3, 12, 12, 12], [5, 12, 12, 12], [6, 12, 12, 12], [7, 12, 12, 12], [9, 12, 12, 12], [3, 9, 9, 9], [5, 9, 9, 9], [6, 9, 9, 9], [7, 9, 9, 9], [9, 9, 9, 12]]

@daochenzha
Copy link
Collaborator

@profection loss并不是越低越好 得看胜率。这种情况就是没学好,神经网络不能保证百分之百对

@profection
Copy link
Author

@profection loss并不是越低越好 得看胜率。这种情况就是没学好,神经网络不能保证百分之百对

哦,那你们怎么判断什么时候算已经训练完了?或者什么时候该结束训练?

@daochenzha
Copy link
Collaborator

@profection 这个只能靠和baseline的胜率判断

@profection
Copy link
Author

@profection 这个只能靠和baseline的胜率判断

和我想一块去了,刚改了代码,三个角色有两个角色用baseline当老师,另一个当学生,我跑跑试试

@profection
Copy link
Author

另外有个关于神经网络结构的问题
为什么不用resnet,不用prelu,为什么lstm只用一层,为什么没有用dropout?只用6层linear是不是少了点?现在gpt都24层了

@daochenzha
Copy link
Collaborator

@profection 复杂的网络比如resnet效果会更好。只是我们没有怎么调网络结构。

@profection
Copy link
Author

哦,我还以为你们都试过,现在的网络结构是排除出来的,因为我试了一下改网络结构,训练出来效果不是很好

@profection
Copy link
Author

profection commented Apr 7, 2022

我又回来了= =,大神还有个问题,我训练这么久,loss一直在0.6徘徊(训练的是wp),为什么啊?这个loss不收敛吗?
PS:不管是现有的模型还是已经改过的模型,训练都不收敛

@daochenzha
Copy link
Collaborator

@profection 强化学习是这样的,loss不会掉,得根据得分判断学习进程

@profection
Copy link
Author

@profection 强化学习是这样的,loss不会掉,得根据得分判断学习进程

明白了,谢谢,我再多训练几天看看

@cxk555
Copy link

cxk555 commented Dec 14, 2023

请问是如何改的用baseline当老师啊,能否告知一下

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants