Componentes personalizados do MDP do Frozen Lake
O ambiente de grid world fornecido é uma variação do Frozen Lake, em que um agente precisa chegar ao objetivo evitando buracos. Sua tarefa é analisar esse ambiente e enquadrá-lo como um MDP, respondendo a perguntas específicas.
Você pode tentar responder inspecionando visualmente o ambiente, quando fizer sentido, ou utilizando a variável env já carregada para você.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício