value_iteration_Learning

3x3の格子内で価値反復を行って，各マスにおける価値が収束するまで以下の計算式を用いる
U(s') = R(s) + Γ * Σ( p(s'|s,a) U(s') )

最後に表示した格子は隣接するマスの中で一番評価の高いマスの方向を表示している

初期状態

|-----------------------|
|       |       |       |
| 0.000 | 0.000 | 0.000 |
|       |       |       |
|-----------------------|
|       |       |       |
| 0.000 | 0.000 |-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| 0.000 | 0.000 | 10.000|
|       |       |       |
|-------|-------|-------|

収束後の状態

|-----------------------|
|       |       |       |
| -1.032| 1.999 | -4.820|
|       |       |       |
|-----------------------|
|       |       |       |
| -0.977| -1.926|-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| -0.587| 0.015 | 10.000|
|       |       |       |
|-------|-------|-------|

各マスにおける最適解

|-----------------------|
|       |       |       |
|  Down |  Left |  Left |
|       |       |       |
|-----------------------|
|       |       |       |
|  Down |  Down |   x   |
|       |       |       |
|-------|-------|-------|
|       |       |       |
| Right | Right |   x   |
|       |       |       |
|-------|-------|-------|

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
value_iteration_Learning.cpp		value_iteration_Learning.cpp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

value_iteration_Learning

About

Releases

Packages

Languages

Dorago/value_iteration_Learning

Folders and files

Latest commit

History

Repository files navigation

value_iteration_Learning

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages