CommencerCommencer gratuitement

Appliquer l’itération de politique pour une politique optimale

L’itération de politique est une technique fondamentale en RL pour trouver une politique optimale. Elle comporte deux étapes principales : l’évaluation de la politique, où vous calculez la fonction de valeur d’état pour une politique donnée, et l’amélioration de la politique, où vous mettez à jour la politique à partir de ces valeurs. Vous appliquerez ces étapes de manière itérative afin de converger vers la politique optimale dans l’environnement personnalisé MyGridWorld.

La fonction render_policy() sera utilisée pour afficher les étapes effectuées par un agent selon une politique.

Les fonctions compute_state_value(state, policy) et compute_q_value(state, action, policy) ont été préchargées pour vous.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Modifier et exécuter le code