On-Policy Optimization Baselines for Deep Reinforcement Learning

On-Policy Optimization Baselines offer a suite of on-policy optimization algorithms, built on top of OpenAI baselines. In addition to the original on-policy optimization baselines, this repository offers implementations of trust region search algorithms (TRPO, ACKTR) combined with Gaussian Mixture Model (GMM) and Normalizing flows Policy. This repository also contains wrappers necessary for discretizing continuous action space for on-policy optimization.

These ideas are based on the following papers. Please find the code in the proper sub-directories.

Further, this repository provides some recent baselines (e.g. Beta distribution) as part of the comparison in the papers.

Citations

If you use this repo for academic research, you are highly encouraged to cite the following papers:

Yunhao Tang, Shipra Agrawal. "Boosting Trust Region Policy Optimization by Normalizing Flows Policy". arXiv:1809.10326 [cs.AI], 2018.
Yunhao Tang, Shipra Agrawal. "Discretizing Continuous Action Space for On-Policy Optimization"(AAAI, 2020)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
onpolicyalgos		onpolicyalgos
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

On-Policy Optimization Baselines for Deep Reinforcement Learning

Citations

About

Releases

Packages

Languages

robintyh1/onpolicybaselines

Folders and files

Latest commit

History

Repository files navigation

On-Policy Optimization Baselines for Deep Reinforcement Learning

Citations

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages