CommencerCommencer gratuitement

Génération d’épisodes pour les méthodes de Monte Carlo

Les méthodes de Monte Carlo nécessitent la génération d’épisodes pour en déduire la fonction de valeur. Vous allez donc implémenter une fonction qui génère des épisodes en sélectionnant des actions aléatoires jusqu’à la fin de l’épisode. Dans les exercices suivants, vous appellerez cette fonction pour appliquer les méthodes de Monte Carlo sur l’environnement personnalisé env déjà chargé pour vous.

La fonction render() est déjà chargée pour vous.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Réinitialisez l’environnement en utilisant un seed de 42.
  • Dans la boucle d’épisode, sélectionnez une action aléatoire à chaque itération.
  • À la fin de chaque itération, mettez à jour les données de episode en ajoutant le triplet (state, action, reward).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Modifier et exécuter le code