Calcolo dei valori-Q

Il tuo obiettivo è calcolare i valori-azione, noti anche come valori-Q, per ogni coppia stato-azione nell'ambiente personalizzato MyGridWorld seguendo la politica mostrata qui sotto. Nell'RL, i valori-Q sono fondamentali perché rappresentano l'utilità attesa dell'esecuzione di una specifica azione in un dato stato, seguita dal rispetto della politica.

L'ambiente è stato importato come env insieme alla funzione compute_state_value() e alle variabili necessarie (terminal_state, num_states, num_actions, policy, gamma).

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

Istruzioni dell'esercizio

Completa la funzione compute_q_value() per calcolare il valore-azione per un dato state e action.
Crea un dizionario Q in cui ogni chiave rappresenta una coppia stato-azione e il valore corrispondente è il valore-Q per quella coppia.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.

Exercise 1: Fondamenti del reinforcement learning Exercise 2: Che cos'è il Reinforcement Learning?Exercise 3: RL vs. altri sotto-domini di ML Exercise 4: Scenari per applicare l'RL Exercise 5: Orientarsi nel framework RL Exercise 6: Ciclo di interazione RL Exercise 7: Compiti di RL episodici e continui Exercise 8: Calcolare i ritorni scontati per le strategie dell'agente Exercise 9: Interagire con gli ambienti di Gymnasium Exercise 10: Configurare un ambiente Mountain Car Exercise 11: Visualizzare l'ambiente Mountain Car Exercise 12: Interagire con l'ambiente Frozen Lake

Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.

Exercise 1: Processi decisionali di Markov Exercise 2: Componenti personalizzati dell'MDP Frozen Lake Exercise 3: Esplorare gli spazi degli stati e delle azioni Exercise 4: Probabilità di transizione e ricompense Exercise 5: Policy e funzioni di valore di stato Exercise 6: Definire una policy deterministica Exercise 7: Calcolo dei valori di stato per una policy Exercise 8: Confrontare le policy Exercise 9: Funzioni valore-azione Exercise 10: Calcolo dei valori-Q

Esercizio attuale

Exercise 11: Migliorare una policy Exercise 12: Iterazione della politica e iterazione del valore Exercise 13: Applicare la policy iteration per una politica ottimale Exercise 14: Implementare la value iteration

Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.

Exercise 1: Metodi Monte Carlo Exercise 2: Generazione di episodi per i metodi Monte Carlo Exercise 3: Implementare Monte Carlo a prima visita Exercise 4: Implementare Every-Visit Monte Carlo Exercise 5: Apprendimento a differenze temporali Exercise 6: Implementare la regola di aggiornamento SARSA Exercise 7: Risolvi Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementare la regola di aggiornamento del Q-learning Exercise 10: Risolvi Frozen Lake 8x8 con Q-learning Exercise 11: Valutare una policy su un Frozen Lake scivoloso

Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.

Exercise 1: Expected SARSA Exercise 2: Regola di aggiornamento di Expected SARSA Exercise 3: Applicare Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementare la regola di aggiornamento del Double Q-learning Exercise 6: Applicare il Double Q-learning Exercise 7: Bilanciare esplorazione e sfruttamento Exercise 8: Definire la funzione epsilon-greedy Exercise 9: Risolvi CliffWalking con la strategia epsilon-greedy Exercise 10: Risolvere CliffWalking con strategia epsilon-greedy a decadimento Exercise 11: Banditi a più braccia Exercise 12: Creare un multi-armed bandit Exercise 13: Risolvi un multi-armed bandit Exercise 14: Valutare la convergenza in un multi-armed bandit Exercise 15: Congratulazioni!