Calcolo dei valori-Q
Il tuo obiettivo è calcolare i valori-azione, noti anche come valori-Q, per ogni coppia stato-azione nell'ambiente personalizzato MyGridWorld seguendo la politica mostrata qui sotto. Nell'RL, i valori-Q sono fondamentali perché rappresentano l'utilità attesa dell'esecuzione di una specifica azione in un dato stato, seguita dal rispetto della politica.

L'ambiente è stato importato come env insieme alla funzione compute_state_value() e alle variabili necessarie (terminal_state, num_states, num_actions, policy, gamma).
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Istruzioni dell'esercizio
- Completa la funzione
compute_q_value()per calcolare il valore-azione per un datostateeaction. - Crea un dizionario
Qin cui ogni chiave rappresenta una coppia stato-azione e il valore corrispondente è il valore-Q per quella coppia.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)