CommencerCommencer gratuitement

Améliorer une politique

Dans l’exercice précédent, vous avez calculé les valeurs Q pour chaque paire état–action dans l’environnement MyGridWorld. Vous allez maintenant utiliser ces valeurs Q pour améliorer la politique existante. L’amélioration de politique est une étape essentielle en Reinforcement Learning : il s’agit d’affiner la politique en choisissant, pour chaque état, les actions qui maximisent l’utilité attendue (valeur Q). Après avoir amélioré la politique, vous afficherez les nouveaux déplacements selon cette politique améliorée.

L’environnement a été importé sous le nom env, avec les valeurs Q Q, ainsi que la fonction render().

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Trouvez la meilleure action pour chaque état à partir des valeurs Q.
  • Sélectionnez la bonne action en fonction de improved_policy.
  • Exécutez l’action sélectionnée pour observer son résultat.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

improved_policy = {}

for state in range(num_states-1):
    # Find the best action for each state based on Q-values
    max_action = ____
    improved_policy[state] = max_action

terminated = False
while not terminated:
  # Select action based on policy 
  action = ____
  # Execute the action
  state, reward, terminated, truncated, info = ____
  render()
Modifier et exécuter le code