Calculer les valeurs d'état pour une politique
En utilisant le même environnement déterministe MyGridWorld, vous devez maintenant évaluer l’efficacité de la politique définie dans l’exercice précédent. Pour cela, vous allez calculer la fonction de valeur d’état pour chaque état sous cette politique.
L’environnement a été importé sous le nom env avec les variables nécessaires (terminal_state, num_states, policy, gamma).
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Complétez la fonction
compute_state_value()pour calculer la valeur de chaque état selon la politique donnée. - Créez un dictionnaire
state_valuesoù chaque clé est l’stateet chaque valeur est la valeur d’état.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)