Appliquer l’itération de politique pour une politique optimale
L’itération de politique est une technique fondamentale en RL pour trouver une politique optimale. Elle comporte deux étapes principales : l’évaluation de la politique, où vous calculez la fonction de valeur d’état pour une politique donnée, et l’amélioration de la politique, où vous mettez à jour la politique à partir de ces valeurs. Vous appliquerez ces étapes de manière itérative afin de converger vers la politique optimale dans l’environnement personnalisé MyGridWorld.
La fonction render_policy() sera utilisée pour afficher les étapes effectuées par un agent selon une politique.
Les fonctions compute_state_value(state, policy) et compute_q_value(state, action, policy) ont été préchargées pour vous.
Cet exercice fait partie du cours
<cours>Reinforcement Learning avec Gymnasium en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V