关于 Mortal 中 DQN Loss 的疑问 #81
-
我在学习和使用 Mortal 时,对其中使用的 dqn_loss 有一些困惑,感觉它在形式和含义上与传统的 Deep Q-learning 有些不一致。尤其是在代码中没有看到 DQL 中常见的 TD 项(Temporal Difference),让我有些不解。 从理论上来说,Q-learning 通过最小化 Temporal Difference 来求解最优的 action value。然而,Mortal 当前的框架(特别是 online 部分)看起来更像是在 value 更新和 policy 更新之间进行迭代。具体来说,它似乎是通过最小化在线样本与 GPR 计算得到的奖励误差来获得更准确的 action value,然后根据新的 action value 来更新策略。 我对强化学习的理解还处在非常入门的阶段,如果有理解不对的地方还请指教 |
Beta Was this translation helpful? Give feedback.
Answered by
Equim-chan
Sep 2, 2024
Replies: 1 comment
-
Mortal 的确是 value-based RL,但这里没有使用 TD 方法,而是用了 MC (Monte Carlo) 方法,或者也可以说是 TD(1),这么做有很多考虑:
|
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
adsf0427
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Mortal 的确是 value-based RL,但这里没有使用 TD 方法,而是用了 MC (Monte Carlo) 方法,或者也可以说是 TD(1),这么做有很多考虑: