Replies: 2 comments 3 replies
-
数据质量是大规模在线RL的常见问题,但在Mortal中问题有所不同。 |
Beta Was this translation helpful? Give feedback.
-
设置opt_every 与 submit_every 相等,以及force_sequential=true 能尽量保证使用的是最新的策略,实际训练中并没有观察到这样做带来的提升 |
Beta Was this translation helpful? Give feedback.
-
目前client.py生产样本的方式本质上借用了1v3.py的代码,但是这带来了一些有关实时性的问题:理想的情况下我希望每场对局都使用最新的策略,这意味着设置games=1(实际上目前最小值只能设置为4)。然而1v3在游戏数比较少的时候非常慢,进行4场对局和进行400场对局所需的时间基本是相同的。目前为了保证生产效率我将对局数设置为1000,这意味着模型在训练时可能使用的是数百个iter之前的策略。这可能是造成模型的遗忘问题的原因之一。我搜索了一下相关问题,似乎MonteCarlo方法不推荐使用ExperienceReplay。
想要具体实现这个想法似乎有点困难,可能的方法是:
(1)每个线程单独生产样本并写入文件,而不是等待所有对局完成后才统一写入。
(2)每隔一段时间(比如10秒)重新load weight。
Beta Was this translation helpful? Give feedback.
All reactions