Génération d’épisodes pour les méthodes de Monte Carlo
Les méthodes de Monte Carlo nécessitent la génération d’épisodes pour en déduire la fonction de valeur. Vous allez donc implémenter une fonction qui génère des épisodes en sélectionnant des actions aléatoires jusqu’à la fin de l’épisode. Dans les exercices suivants, vous appellerez cette fonction pour appliquer les méthodes de Monte Carlo sur l’environnement personnalisé env déjà chargé pour vous.
La fonction render() est déjà chargée pour vous.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Réinitialisez l’environnement en utilisant un
seedde 42. - Dans la boucle d’épisode, sélectionnez une
actionaléatoire à chaque itération. - À la fin de chaque itération, mettez à jour les données de
episodeen ajoutant le triplet(state, action, reward).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())