关于 Mortal 中 DQN Loss 的疑问 #81

adsf0427 · 2024-09-02T11:02:00Z

adsf0427
Sep 2, 2024

我在学习和使用 Mortal 时，对其中使用的 dqn_loss 有一些困惑，感觉它在形式和含义上与传统的 Deep Q-learning 有些不一致。尤其是在代码中没有看到 DQL 中常见的 TD 项（Temporal Difference），让我有些不解。

从理论上来说，Q-learning 通过最小化 Temporal Difference 来求解最优的 action value。然而，Mortal 当前的框架（特别是 online 部分）看起来更像是在 value 更新和 policy 更新之间进行迭代。具体来说，它似乎是通过最小化在线样本与 GPR 计算得到的奖励误差来获得更准确的 action value，然后根据新的 action value 来更新策略。

我对强化学习的理解还处在非常入门的阶段，如果有理解不对的地方还请指教

Answered by Equim-chan

Sep 2, 2024

Mortal 的确是 value-based RL，但这里没有使用 TD 方法，而是用了 MC (Monte Carlo) 方法，或者也可以说是 TD(1)，这么做有很多考虑：

TD 的开销比 MC 高。计算 TD error 的 Bellman equation 里有一项 $\displaystyle \max_a Q(S_{t+1}, a)$，为了计算它就要多 forward 一次。然后，常用的 double DQN 框架需要增加一个 target network，于是各种存储的开销也翻了倍，还得多算一个 $\displaystyle \arg \max_a Q(S_{t+1}, a)$，又多了次 forward。MC 只 forward 一次，十分痛快。
TD 需要 bootstrapping，增加了训练的难度，MC 没有这个问题。
MC 的结果不比 TD 差，即便在 sparse reward 的情况下。这篇研究有提到一些。曾经我在 Mortal 上也尝试过换成 TD，但并没有提升。
一个猜想，由于麻将本身的 variance 就很大，TD 所带来的小 variance 的优势体现不出来——variance 仍然会很大，反而训练时还要依赖由 NN 输出的 noisy estimation，增加了不稳定性，而相比之下 MC 可以对真实的 sparse reward 更敏感。

View full answer

Equim-chan · 2024-09-02T12:56:35Z

Equim-chan
Sep 2, 2024
Maintainer

Mortal 的确是 value-based RL，但这里没有使用 TD 方法，而是用了 MC (Monte Carlo) 方法，或者也可以说是 TD(1)，这么做有很多考虑：

TD 的开销比 MC 高。计算 TD error 的 Bellman equation 里有一项 $\displaystyle \max_a Q(S_{t+1}, a)$，为了计算它就要多 forward 一次。然后，常用的 double DQN 框架需要增加一个 target network，于是各种存储的开销也翻了倍，还得多算一个 $\displaystyle \arg \max_a Q(S_{t+1}, a)$，又多了次 forward。MC 只 forward 一次，十分痛快。
TD 需要 bootstrapping，增加了训练的难度，MC 没有这个问题。
MC 的结果不比 TD 差，即便在 sparse reward 的情况下。这篇研究有提到一些。曾经我在 Mortal 上也尝试过换成 TD，但并没有提升。
一个猜想，由于麻将本身的 variance 就很大，TD 所带来的小 variance 的优势体现不出来——variance 仍然会很大，反而训练时还要依赖由 NN 输出的 noisy estimation，增加了不稳定性，而相比之下 MC 可以对真实的 sparse reward 更敏感。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 Mortal 中 DQN Loss 的疑问 #81

{{title}}

Replies: 1 comment

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

关于 Mortal 中 DQN Loss 的疑问 #81

adsf0427 Sep 2, 2024

Replies: 1 comment

Equim-chan Sep 2, 2024 Maintainer

adsf0427
Sep 2, 2024

Equim-chan
Sep 2, 2024
Maintainer