Confrontare le policy

Ti vengono fornite due funzioni di valore di stato (value_function_1 e value_function_2) corrispondenti a due policy diverse nell'ambiente MyGridWorld. Il tuo compito è confrontare queste funzioni di valore di stato, stato per stato, per determinare quale policy è più efficace.

La variabile num_states è a tua disposizione.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una lista one_is_better di valori booleani, in cui ogni elemento verifica se il valore dello stato in value_function_1 è maggiore o uguale al valore dello stato in value_function_2.
Crea una lista two_is_better di valori booleani, in cui ogni elemento verifica se il valore dello stato in value_function_2 è maggiore o uguale al valore dello stato in value_function_1.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.

Exercise 1: Fondamenti del reinforcement learning Exercise 2: Che cos'è il Reinforcement Learning?Exercise 3: RL vs. altri sotto-domini di ML Exercise 4: Scenari per applicare l'RL Exercise 5: Orientarsi nel framework RL Exercise 6: Ciclo di interazione RL Exercise 7: Compiti di RL episodici e continui Exercise 8: Calcolare i ritorni scontati per le strategie dell'agente Exercise 9: Interagire con gli ambienti di Gymnasium Exercise 10: Configurare un ambiente Mountain Car Exercise 11: Visualizzare l'ambiente Mountain Car Exercise 12: Interagire con l'ambiente Frozen Lake

Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.

Exercise 1: Processi decisionali di Markov Exercise 2: Componenti personalizzati dell'MDP Frozen Lake Exercise 3: Esplorare gli spazi degli stati e delle azioni Exercise 4: Probabilità di transizione e ricompense Exercise 5: Policy e funzioni di valore di stato Exercise 6: Definire una policy deterministica Exercise 7: Calcolo dei valori di stato per una policy Exercise 8: Confrontare le policy

Esercizio attuale

Exercise 9: Funzioni valore-azione Exercise 10: Calcolo dei valori-Q Exercise 11: Migliorare una policy Exercise 12: Iterazione della politica e iterazione del valore Exercise 13: Applicare la policy iteration per una politica ottimale Exercise 14: Implementare la value iteration

Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.

Exercise 1: Metodi Monte Carlo Exercise 2: Generazione di episodi per i metodi Monte Carlo Exercise 3: Implementare Monte Carlo a prima visita Exercise 4: Implementare Every-Visit Monte Carlo Exercise 5: Apprendimento a differenze temporali Exercise 6: Implementare la regola di aggiornamento SARSA Exercise 7: Risolvi Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementare la regola di aggiornamento del Q-learning Exercise 10: Risolvi Frozen Lake 8x8 con Q-learning Exercise 11: Valutare una policy su un Frozen Lake scivoloso

Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.

Exercise 1: Expected SARSA Exercise 2: Regola di aggiornamento di Expected SARSA Exercise 3: Applicare Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementare la regola di aggiornamento del Double Q-learning Exercise 6: Applicare il Double Q-learning Exercise 7: Bilanciare esplorazione e sfruttamento Exercise 8: Definire la funzione epsilon-greedy Exercise 9: Risolvi CliffWalking con la strategia epsilon-greedy Exercise 10: Risolvere CliffWalking con strategia epsilon-greedy a decadimento Exercise 11: Banditi a più braccia Exercise 12: Creare un multi-armed bandit Exercise 13: Risolvi un multi-armed bandit Exercise 14: Valutare la convergenza in un multi-armed bandit Exercise 15: Congratulazioni!