CommencerCommencer gratuitement

Résoudre Frozen Lake 8x8 avec SARSA

Dans cet exercice, vous allez appliquer l’algorithme SARSA, en utilisant la fonction update_q_table() que vous avez implémentée précédemment, pour apprendre une politique optimale dans l’environnement Frozen Lake 8x8. Cet environnement est identique au classique 4x4, à la seule différence qu’il est plus grand. Vous utiliserez SARSA pour améliorer itérativement la politique de l’agent en fonction des récompenses reçues de l’environnement.

Une Q-table Q a été initialisée et préchargée pour vous, ainsi que la fonction update_q_table() de l’exercice précédent.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Pour chaque épisode de l’entraînement, exécutez l’action sélectionnée.
  • Choisissez next_action aléatoirement.
  • Mettez à jour la Q-table pour le state et l’action donnés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Modifier et exécuter le code