Définir une politique déterministe
Dans cet exercice, vous allez travailler avec un environnement personnalisé appelé MyGridWorld, le même que vous avez vu dans la vidéo. Cet environnement est un monde en grille où l’objectif de l’agent est d’atteindre le diamant le plus rapidement possible. Votre tâche consiste à définir une politique qui guide le comportement de l’agent comme indiqué dans la figure ci-dessous.

Les actions sont représentées comme suit : (0 → gauche, 1 → bas, 2 → droite, 3 → haut).
La bibliothèque gymnasium a été importée pour vous sous le nom gym ainsi que la fonction render().
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____