Skip to content

Dorago/value_iteration_Learning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

value_iteration_Learning

3x3の格子内で価値反復を行って,各マスにおける価値が収束するまで以下の計算式を用いる
U(s') = R(s) + Γ * Σ( p(s'|s,a) U(s') )

最後に表示した格子は隣接するマスの中で一番評価の高いマスの方向を表示している

初期状態

|-----------------------|
|       |       |       |
| 0.000 | 0.000 | 0.000 |
|       |       |       |
|-----------------------|
|       |       |       |
| 0.000 | 0.000 |-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| 0.000 | 0.000 | 10.000|
|       |       |       |
|-------|-------|-------|

収束後の状態

|-----------------------|
|       |       |       |
| -1.032| 1.999 | -4.820|
|       |       |       |
|-----------------------|
|       |       |       |
| -0.977| -1.926|-10.000|
|       |       |       |
|-------|-------|-------|
|       |       |       |
| -0.587| 0.015 | 10.000|
|       |       |       |
|-------|-------|-------|

各マスにおける最適解

|-----------------------|
|       |       |       |
|  Down |  Left |  Left |
|       |       |       |
|-----------------------|
|       |       |       |
|  Down |  Down |   x   |
|       |       |       |
|-------|-------|-------|
|       |       |       |
| Right | Right |   x   |
|       |       |       |
|-------|-------|-------|

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages