Améliorer une politique
Dans l’exercice précédent, vous avez calculé les valeurs Q pour chaque paire état–action dans l’environnement MyGridWorld. Vous allez maintenant utiliser ces valeurs Q pour améliorer la politique existante. L’amélioration de politique est une étape essentielle en Reinforcement Learning : il s’agit d’affiner la politique en choisissant, pour chaque état, les actions qui maximisent l’utilité attendue (valeur Q). Après avoir amélioré la politique, vous afficherez les nouveaux déplacements selon cette politique améliorée.
L’environnement a été importé sous le nom env, avec les valeurs Q Q, ainsi que la fonction render().
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Trouvez la meilleure action pour chaque état à partir des valeurs Q.
- Sélectionnez la bonne
actionen fonction deimproved_policy. - Exécutez l’
actionsélectionnée pour observer son résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
improved_policy = {}
for state in range(num_states-1):
# Find the best action for each state based on Q-values
max_action = ____
improved_policy[state] = max_action
terminated = False
while not terminated:
# Select action based on policy
action = ____
# Execute the action
state, reward, terminated, truncated, info = ____
render()