Componentes personalizados do MDP do Frozen Lake
O ambiente de grid world fornecido é uma variação do Frozen Lake, em que um agente precisa chegar ao objetivo evitando buracos. Sua tarefa é analisar esse ambiente e enquadrá-lo como um MDP, respondendo a perguntas específicas.
Você pode tentar responder inspecionando visualmente o ambiente, quando fizer sentido, ou utilizando a variável env já carregada para você.
Este exercicio faz parte do curso
Reinforcement Learning com Gymnasium em Python
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio