Résoudre Frozen Lake 8x8 avec SARSA
Dans cet exercice, vous allez appliquer l’algorithme SARSA, en utilisant la fonction update_q_table() que vous avez implémentée précédemment, pour apprendre une politique optimale dans l’environnement Frozen Lake 8x8. Cet environnement est identique au classique 4x4, à la seule différence qu’il est plus grand. Vous utiliserez SARSA pour améliorer itérativement la politique de l’agent en fonction des récompenses reçues de l’environnement.
Une Q-table Q a été initialisée et préchargée pour vous, ainsi que la fonction update_q_table() de l’exercice précédent.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Pour chaque épisode de l’entraînement, exécutez l’
actionsélectionnée. - Choisissez
next_actionaléatoirement. - Mettez à jour la Q-table pour le
stateet l’actiondonnés.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())