Definindo uma política determinística
Neste exercício, você vai trabalhar com um ambiente personalizado chamado MyGridWorld, o mesmo que você viu no vídeo. Esse ambiente é um grid world em que o objetivo do agente é alcançar o diamante o mais rápido possível. Sua tarefa é definir uma política que oriente o comportamento do agente conforme especificado na figura abaixo.

As ações são representadas como: (0 → esquerda, 1 → baixo, 2 → direita, 3 → cima).
A biblioteca gymnasium já foi importada para você como gym, junto com a função render().
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____