Exercício Decisões Sequenciais
Implemente o algoritmo de MDP com as equações de Bellman e aplique no exercício em anexo. O exercício é similar ao ambiente 4 x 3 visto nas aulas. No entanto, a posição não é mais um obstáculo e sim uma casa onda há um recompensa igual a -0.5. Além disso, existe uma casa com recompensa positiva igual +0.2.