-
Notifications
You must be signed in to change notification settings - Fork 1.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
/chapter5/chapter5 #54
Comments
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy? |
感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新 |
添加了 PPO 是 on-policy 算法的解释 |
|
|
您好,非常感谢整理,重要性采样那块儿我没弄明白“q(x) 可以是任何分布,唯一的限制就是 q(x) 的概率是 0 的时候,p(x) 的概率不为 0,不然这样会没有定义。假设 q(x) 的概率是 0 的时候,p(x) 的概率也都是 0 的话,那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗 |
您好,您可以这样理解,在重要性权重 p/q 中,p≠0 但是 q=0,那么重要性权重=∞,所以p≠0 但是 q=0 的情况是个限制,不适用; |
谢谢博主! |
|
感谢您的反馈,这里指的就是基线(baseline),具体可参考: |
我看pg算法里,有对t累加的操作,为什么第三张幻灯片没有了呢?不太懂这张幻灯片里期望的含义 |
您好,在高等数学里面分母是可以趋向于0的,只不过如果分母为零,分子不为零,整个函数是趋于无穷的,如果分子分母都为零是有可能收敛的。比如 |
您好,作为强化学习的初学者,我从本章5.1小节的标题“从同策略到异策略”中感受到两点暗示:1、从同策略到异策略是一种优化。2、PPO算法是一种异策略算法。对于第一点我还没搞明白,第二点似乎并不正确。是不是改为“同策略与异策略”之类的标题会更合适一点。 |
@xiaoliua1 感谢您的反馈,回复如下: |
您好,我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项,使得$theta^'$与$theta$相差不大,为什么重要性采样是异策略,PPO是同策略呢?文章中说原因是PPO中$thete^'$是$theta_old$,但我觉得重要性采样中的$thete^'$也应该是$theta_old$呀。谢谢! |
@Chuan-shanjia 感谢您的反馈,回复如下: 关于这块的表述已在文章中更新:552e4f2 |
感谢分享 |
客气啦~ |
请问有连续情况下PPO的实例吗 |
请问图5.4有出处吗? |
@Chin-Sun |
谢谢!感谢分享这篇笔记:) |
客气啦~ ^V^ |
https://datawhalechina.github.io/easy-rl/#/chapter5/chapter5
Description
The text was updated successfully, but these errors were encountered: