CommencerCommencer gratuitement

Définir une politique déterministe

Dans cet exercice, vous allez travailler avec un environnement personnalisé appelé MyGridWorld, le même que vous avez vu dans la vidéo. Cet environnement est un monde en grille où l’objectif de l’agent est d’atteindre le diamant le plus rapidement possible. Votre tâche consiste à définir une politique qui guide le comportement de l’agent comme indiqué dans la figure ci-dessous.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Les actions sont représentées comme suit : (0 → gauche, 1 → bas, 2 → droite, 3 → haut).

La bibliothèque gymnasium a été importée pour vous sous le nom gym ainsi que la fonction render().

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Modifier et exécuter le code