CommencerCommencer gratuitement

Calculer les valeurs d'état pour une politique

En utilisant le même environnement déterministe MyGridWorld, vous devez maintenant évaluer l’efficacité de la politique définie dans l’exercice précédent. Pour cela, vous allez calculer la fonction de valeur d’état pour chaque état sous cette politique.

L’environnement a été importé sous le nom env avec les variables nécessaires (terminal_state, num_states, policy, gamma).

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Complétez la fonction compute_state_value() pour calculer la valeur de chaque état selon la politique donnée.
  • Créez un dictionnaire state_values où chaque clé est l’state et chaque valeur est la valeur d’état.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Modifier et exécuter le code