/chapter5/chapter5 #54

qiwang067 · 2021-05-24T01:15:57Z

https://datawhalechina.github.io/easy-rl/#/chapter5/chapter5

Description

WuYunjin · 2021-05-24T04:41:22Z

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

qiwang067 · 2021-05-25T02:16:52Z

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

感谢您的反馈，PPO 的确是 on-policy 的，本章参考的资料有一些问题，会尽快更新

qiwang067 · 2021-05-25T10:24:33Z

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

感谢您的反馈，PPO 的确是 on-policy 的，本章参考的资料有一些问题，会尽快更新

添加了 PPO 是 on-policy 算法的解释

jiangweishe · 2021-06-11T02:58:46Z

@qiwang067

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

感谢您的反馈，PPO 的确是 on-policy 的，本章参考的资料有一些问题，会尽快更新

添加了 PPO 是 on-policy 算法的解释
你好，请问ppo是用旧的θ'来更新新的θ，为什么还是on-policy呢？

qiwang067 · 2021-06-11T06:04:17Z

@qiwang067

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

感谢您的反馈，PPO 的确是 on-policy 的，本章参考的资料有一些问题，会尽快更新

添加了 PPO 是 on-policy 算法的解释
你好，请问ppo是用旧的θ'来更新新的θ，为什么还是on-policy呢？

这个解释在本章笔记中就有，详见下图

o00000o · 2021-06-22T01:28:27Z

您好，非常感谢整理，重要性采样那块儿我没弄明白“q(x) 可以是任何分布，唯一的限制就是 q(x) 的概率是 0 的时候，p(x) 的概率不为 0，不然这样会没有定义。假设 q(x) 的概率是 0 的时候，p(x) 的概率也都是 0 的话，那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗

qiwang067 · 2021-06-22T14:34:02Z

您好，非常感谢整理，重要性采样那块儿我没弄明白“q(x) 可以是任何分布，唯一的限制就是 q(x) 的概率是 0 的时候，p(x) 的概率不为 0，不然这样会没有定义。假设 q(x) 的概率是 0 的时候，p(x) 的概率也都是 0 的话，那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗

您好，您可以这样理解，在重要性权重 p/q 中，p≠0 但是 q=0，那么重要性权重=∞，所以p≠0 但是 q=0 的情况是个限制，不适用；
而 p 和 q 在某处 x 都为0的话，重要性权重也可以定义（不为无穷或者零），只不过f(x)p(x)=0，即这点对期望的累积没有贡献。

Strawberry47 · 2021-11-11T02:05:26Z

谢谢博主！

Strawberry47 · 2021-11-11T08:54:03Z

PPO代码中，计算优势函数那部分（a_t += discount*(reward_arr[k] +self.gammavalues[k+1] (1-int(dones_arr[k])) - values[k])），跟第四章的介绍优势函数的公式不太一样诶，请问教材里是在哪里涉及到PPO的优势函数的呀？

lyhlyhl · 2022-02-05T18:16:15Z

这里这个baseline好像有问题？感觉指的是bias

qiwang067 · 2022-02-06T13:03:52Z

这里这个baseline好像有问题？感觉指的是bias

感谢您的反馈，这里指的就是基线（baseline），具体可参考：
https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=tip-1-add-a-baseline

Xyfcw · 2022-03-08T08:18:30Z

我看pg算法里，有对t累加的操作，为什么第三张幻灯片没有了呢？不太懂这张幻灯片里期望的含义

karrin-chen · 2022-04-14T03:12:42Z

@o00000o
您好，非常感谢整理，重要性采样那块儿我没弄明白“q(x) 可以是任何分布，唯一的限制就是 q(x) 的概率是 0 的时候，p(x) 的概率不为 0，不然这样会没有定义。假设 q(x) 的概率是 0 的时候，p(x) 的概率也都是 0 的话，那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗

您好，在高等数学里面分母是可以趋向于0的，只不过如果分母为零，分子不为零，整个函数是趋于无穷的，如果分子分母都为零是有可能收敛的。比如
f(x) = sinx/x，当x趋于0的时候，可以算出结果为f(0) = 1。当然这只是一个例子，具体的可以去搜一下无穷小量。

xiaoliua1 · 2022-10-19T11:30:08Z

您好，作为强化学习的初学者，我从本章5.1小节的标题“从同策略到异策略”中感受到两点暗示：1、从同策略到异策略是一种优化。2、PPO算法是一种异策略算法。对于第一点我还没搞明白，第二点似乎并不正确。是不是改为“同策略与异策略”之类的标题会更合适一点。

qiwang067 · 2022-10-23T12:40:32Z

@xiaoliua1 感谢您的反馈，回复如下：

异策略并非是同策略的优化。
PPO算法是一种同策略算法，本章5.2节明确讲了这件事：
标题确实可能会给人造成误解，已改成“重要性采样”。

Chuan-shanjia · 2022-10-31T16:55:53Z

您好，我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项，使得$theta^'$与$theta$相差不大，为什么重要性采样是异策略，PPO是同策略呢？文章中说原因是PPO中$thete^'$是$theta_old$，但我觉得重要性采样中的$thete^'$也应该是$theta_old$呀。谢谢！

qiwang067 · 2023-01-05T13:28:56Z

您好，我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项，使得$theta^'$与$theta$相差不大，为什么重要性采样是异策略，PPO是同策略呢？文章中说原因是PPO中$thete^'$是$theta_old$，但我觉得重要性采样中的$thete^'$也应该是$theta_old$呀。谢谢！

@Chuan-shanjia 感谢您的反馈，回复如下：

关于这块的表述已在文章中更新：552e4f2

wym5 · 2023-05-16T03:25:34Z

感谢分享

qiwang067 · 2023-05-18T06:27:03Z

感谢分享

客气啦~

YZH-WDNMD · 2024-01-08T13:17:27Z

请问有连续情况下PPO的实例吗

Chin-Sun · 2024-04-27T02:44:15Z

请问图5.4有出处吗？

qiwang067 · 2024-04-27T04:11:35Z

请问图5.4有出处吗？

@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347

Chin-Sun · 2024-04-27T04:14:01Z

@qiwang067

请问图5.4有出处吗？

@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347

谢谢！感谢分享这篇笔记:)

qiwang067 · 2024-04-27T04:23:29Z

@qiwang067

请问图5.4有出处吗？

@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347

谢谢！感谢分享这篇笔记:)

客气啦~ ^V^

qiwang067 · 2024-04-27T07:11:40Z

请问有连续情况下PPO的实例吗

@YZH-WDNMD
可以看这个：
https://github.com/datawhalechina/joyrl-book/blob/main/notebooks/%E7%AC%AC12%E7%AB%A0_PPO_Pendulum-v1.ipynb

qiwang067 added Gitalk /chapter5/chapter5 labels May 24, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

/chapter5/chapter5 #54

/chapter5/chapter5 #54

qiwang067 commented May 24, 2021

WuYunjin commented May 24, 2021

qiwang067 commented May 25, 2021

qiwang067 commented May 25, 2021

jiangweishe commented Jun 11, 2021

qiwang067 commented Jun 11, 2021

o00000o commented Jun 22, 2021 •

edited

Loading

qiwang067 commented Jun 22, 2021

Strawberry47 commented Nov 11, 2021

Strawberry47 commented Nov 11, 2021

lyhlyhl commented Feb 5, 2022

qiwang067 commented Feb 6, 2022

Xyfcw commented Mar 8, 2022

karrin-chen commented Apr 14, 2022

xiaoliua1 commented Oct 19, 2022

qiwang067 commented Oct 23, 2022

Chuan-shanjia commented Oct 31, 2022

qiwang067 commented Jan 5, 2023

wym5 commented May 16, 2023

qiwang067 commented May 18, 2023

YZH-WDNMD commented Jan 8, 2024

Chin-Sun commented Apr 27, 2024

qiwang067 commented Apr 27, 2024 •

edited

Loading

Chin-Sun commented Apr 27, 2024

qiwang067 commented Apr 27, 2024

qiwang067 commented Apr 27, 2024 •

edited

Loading

/chapter5/chapter5 #54

/chapter5/chapter5 #54

Comments

qiwang067 commented May 24, 2021

WuYunjin commented May 24, 2021

qiwang067 commented May 25, 2021

qiwang067 commented May 25, 2021

jiangweishe commented Jun 11, 2021

qiwang067 commented Jun 11, 2021

o00000o commented Jun 22, 2021 • edited Loading

qiwang067 commented Jun 22, 2021

Strawberry47 commented Nov 11, 2021

Strawberry47 commented Nov 11, 2021

lyhlyhl commented Feb 5, 2022

qiwang067 commented Feb 6, 2022

Xyfcw commented Mar 8, 2022

karrin-chen commented Apr 14, 2022

xiaoliua1 commented Oct 19, 2022

qiwang067 commented Oct 23, 2022

Chuan-shanjia commented Oct 31, 2022

qiwang067 commented Jan 5, 2023

wym5 commented May 16, 2023

qiwang067 commented May 18, 2023

YZH-WDNMD commented Jan 8, 2024

Chin-Sun commented Apr 27, 2024

qiwang067 commented Apr 27, 2024 • edited Loading

Chin-Sun commented Apr 27, 2024

qiwang067 commented Apr 27, 2024

qiwang067 commented Apr 27, 2024 • edited Loading

o00000o commented Jun 22, 2021 •

edited

Loading

qiwang067 commented Apr 27, 2024 •

edited

Loading

qiwang067 commented Apr 27, 2024 •

edited

Loading