CommencerCommencez gratuitement

Appliquer l’itération de politique pour une politique optimale

L’itération de politique est une technique fondamentale en RL pour trouver une politique optimale. Elle comporte deux étapes principales : l’évaluation de la politique, où vous calculez la fonction de valeur d’état pour une politique donnée, et l’amélioration de la politique, où vous mettez à jour la politique à partir de ces valeurs. Vous appliquerez ces étapes de manière itérative afin de converger vers la politique optimale dans l’environnement personnalisé MyGridWorld.

La fonction render_policy() sera utilisée pour afficher les étapes effectuées par un agent selon une politique.

Les fonctions compute_state_value(state, policy) et compute_q_value(state, action, policy) ont été préchargées pour vous.

Cet exercice fait partie du cours

<cours>Reinforcement Learning avec Gymnasium en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Modifier et exécuter le code