Migliorare una policy

Nel precedente esercizio hai calcolato i Q-value per ogni coppia stato-azione nell'ambiente MyGridWorld. Ora userai questi Q-value per migliorare la policy esistente. Il miglioramento della policy è uno step fondamentale nel reinforcement learning: migliori la policy scegliendo, in ogni stato, le azioni che massimizzano l'utilità attesa (Q-value). Dopo aver migliorato la policy, renderizzerai i nuovi movimenti secondo questa policy migliorata.

L'ambiente è stato importato come env, insieme ai Q-value come Q, e alla funzione render().

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

Istruzioni dell'esercizio

Trova l'azione migliore per ciascuno stato in base ai Q-value.
Seleziona la action corretta in base alla improved_policy.
Esegui la action selezionata per osservarne l'esito.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

improved_policy = {}

for state in range(num_states-1):
    # Find the best action for each state based on Q-values
    max_action = ____
    improved_policy[state] = max_action

terminated = False
while not terminated:
  # Select action based on policy 
  action = ____
  # Execute the action
  state, reward, terminated, truncated, info = ____
  render()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.

Exercise 1: Fondamenti del reinforcement learning Exercise 2: Che cos'è il Reinforcement Learning?Exercise 3: RL vs. altri sotto-domini di ML Exercise 4: Scenari per applicare l'RL Exercise 5: Orientarsi nel framework RL Exercise 6: Ciclo di interazione RL Exercise 7: Compiti di RL episodici e continui Exercise 8: Calcolare i ritorni scontati per le strategie dell'agente Exercise 9: Interagire con gli ambienti di Gymnasium Exercise 10: Configurare un ambiente Mountain Car Exercise 11: Visualizzare l'ambiente Mountain Car Exercise 12: Interagire con l'ambiente Frozen Lake

Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.

Exercise 1: Processi decisionali di Markov Exercise 2: Componenti personalizzati dell'MDP Frozen Lake Exercise 3: Esplorare gli spazi degli stati e delle azioni Exercise 4: Probabilità di transizione e ricompense Exercise 5: Policy e funzioni di valore di stato Exercise 6: Definire una policy deterministica Exercise 7: Calcolo dei valori di stato per una policy Exercise 8: Confrontare le policy Exercise 9: Funzioni valore-azione Exercise 10: Calcolo dei valori-Q Exercise 11: Migliorare una policy

Esercizio attuale

Exercise 12: Iterazione della politica e iterazione del valore Exercise 13: Applicare la policy iteration per una politica ottimale Exercise 14: Implementare la value iteration

Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.

Exercise 1: Metodi Monte Carlo Exercise 2: Generazione di episodi per i metodi Monte Carlo Exercise 3: Implementare Monte Carlo a prima visita Exercise 4: Implementare Every-Visit Monte Carlo Exercise 5: Apprendimento a differenze temporali Exercise 6: Implementare la regola di aggiornamento SARSA Exercise 7: Risolvi Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementare la regola di aggiornamento del Q-learning Exercise 10: Risolvi Frozen Lake 8x8 con Q-learning Exercise 11: Valutare una policy su un Frozen Lake scivoloso

Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.

Exercise 1: Expected SARSA Exercise 2: Regola di aggiornamento di Expected SARSA Exercise 3: Applicare Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementare la regola di aggiornamento del Double Q-learning Exercise 6: Applicare il Double Q-learning Exercise 7: Bilanciare esplorazione e sfruttamento Exercise 8: Definire la funzione epsilon-greedy Exercise 9: Risolvi CliffWalking con la strategia epsilon-greedy Exercise 10: Risolvere CliffWalking con strategia epsilon-greedy a decadimento Exercise 11: Banditi a più braccia Exercise 12: Creare un multi-armed bandit Exercise 13: Risolvi un multi-armed bandit Exercise 14: Valutare la convergenza in un multi-armed bandit Exercise 15: Congratulazioni!