ComeçarComece de graça

Definindo uma política determinística

Neste exercício, você vai trabalhar com um ambiente personalizado chamado MyGridWorld, o mesmo que você viu no vídeo. Esse ambiente é um grid world em que o objetivo do agente é alcançar o diamante o mais rápido possível. Sua tarefa é definir uma política que oriente o comportamento do agente conforme especificado na figura abaixo.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

As ações são representadas como: (0 → esquerda, 1 → baixo, 2 → direita, 3 → cima).

A biblioteca gymnasium já foi importada para você como gym, junto com a função render().

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Editar e executar o código