优点:
- 适合使用的工具函数
- 加深对算法的理解
- 对源码的思路清晰
- 必要性,使用torch做出实验结果
- 原始存在大量妥协性代码,无框架或框架紊乱,牵一发动全身无好用接口
缺点:
- 忽略细节,产生bug
- 代码复现失败
原定一天300行提交+x行未测试的代码迁移
时间表
时间 | 进度 | 说明 |
---|---|---|
2021-08-14 | 开始 | |
2021-08-18 | 编写FRAPPlus算法,未调通,SEED随机数种子失效 | 输入X和Y相同,但是输出MSE有差异?或者X和Y有部分不同? |
2021-08-25 | 修正部分代码结构,FRAPPlus算法未调通,FRAP算法迁移完成 | FRAPPlus算法结构和FRAP算法基本类似,但是使用框架不同,未找到原因。 |
2021-09-22 | 重新开始,中间拖延两周(按要求修正文档、练习数据挖掘) | 最大压力法取得最优效果,这不是我想要的,但是确实有用。先把Sumo加上,看看能不能让工程广泛化 |
2021-09-30 | Meta-DQN有效果 | |
2021-10-21 | 重新开始,中间拖延三周(修正文档,调整) | |
2021-11-10 | 第二次重构,完成DQN算法 | |
2021-11-18 | 完成Q-Learning等传统强化学习算法调试 | 公开了源代码到github |