Appliquer l’itération de politique pour une politique optimale
L’itération de politique est une technique fondamentale en RL pour trouver une politique optimale. Elle comporte deux étapes principales : l’évaluation de la politique, où vous calculez la fonction de valeur d’état pour une politique donnée, et l’amélioration de la politique, où vous mettez à jour la politique à partir de ces valeurs. Vous appliquerez ces étapes de manière itérative afin de converger vers la politique optimale dans l’environnement personnalisé MyGridWorld.
La fonction render_policy() sera utilisée pour afficher les étapes effectuées par un agent selon une politique.
Les fonctions compute_state_value(state, policy) et compute_q_value(state, action, policy) ont été préchargées pour vous.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V