IniziaInizia gratis

Calcolo dei valori-Q

Il tuo obiettivo è calcolare i valori-azione, noti anche come valori-Q, per ogni coppia stato-azione nell'ambiente personalizzato MyGridWorld seguendo la politica mostrata qui sotto. Nell'RL, i valori-Q sono fondamentali perché rappresentano l'utilità attesa dell'esecuzione di una specifica azione in un dato stato, seguita dal rispetto della politica.

exercise_policy.png

L'ambiente è stato importato come env insieme alla funzione compute_state_value() e alle variabili necessarie (terminal_state, num_states, num_actions, policy, gamma).

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Completa la funzione compute_q_value() per calcolare il valore-azione per un dato state e action.
  • Crea un dizionario Q in cui ogni chiave rappresenta una coppia stato-azione e il valore corrispondente è il valore-Q per quella coppia.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Modifica ed esegui il codice