Risolvi CliffWalking con la strategia epsilon-greedy

L'ambiente CliffWalking è un banco di prova standard per gli algoritmi di RL. È un mondo a griglia in cui un agente deve trovare un percorso da uno stato iniziale a uno stato obiettivo, evitando i precipizi lungo la strada. Usare la strategia epsilon-greedy permette all'agente di esplorare efficacemente l'ambiente mentre impara a evitare i precipizi, massimizzando la ricompensa cumulativa. Il tuo compito è risolvere questo ambiente usando la strategia epsilon-greedy, calcolare le ricompense ottenute in ogni episodio di training e salvarle nella lista rewards_eps_greedy.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

Istruzioni dell'esercizio

All'interno di un episodio, seleziona un'action usando la funzione epsilon_greedy().
Accumula la reward ricevuta in episode_reward.
Dopo ogni episodio, aggiungi il episode_reward totale alla lista rewards_eps_greedy per analizzarla in seguito.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

rewards_eps_greedy = []
for episode in range(total_episodes):
    state, info = env.reset()
    episode_reward = 0
    for i in range(max_steps):
      	# Select action with epsilon-greedy strategy
        action = ____
        next_state, reward, terminated, truncated, info = env.step(action)
        # Accumulate reward
        ____        
        update_q_table(state, action, reward, next_state)      
        state = next_state
    # Append the toal reward to the rewards list 
    ____
print("Average reward per episode: ", np.mean(rewards_eps_greedy))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.

Exercise 1: Fondamenti del reinforcement learning Exercise 2: Che cos'è il Reinforcement Learning?Exercise 3: RL vs. altri sotto-domini di ML Exercise 4: Scenari per applicare l'RL Exercise 5: Orientarsi nel framework RL Exercise 6: Ciclo di interazione RL Exercise 7: Compiti di RL episodici e continui Exercise 8: Calcolare i ritorni scontati per le strategie dell'agente Exercise 9: Interagire con gli ambienti di Gymnasium Exercise 10: Configurare un ambiente Mountain Car Exercise 11: Visualizzare l'ambiente Mountain Car Exercise 12: Interagire con l'ambiente Frozen Lake

Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.

Exercise 1: Processi decisionali di Markov Exercise 2: Componenti personalizzati dell'MDP Frozen Lake Exercise 3: Esplorare gli spazi degli stati e delle azioni Exercise 4: Probabilità di transizione e ricompense Exercise 5: Policy e funzioni di valore di stato Exercise 6: Definire una policy deterministica Exercise 7: Calcolo dei valori di stato per una policy Exercise 8: Confrontare le policy Exercise 9: Funzioni valore-azione Exercise 10: Calcolo dei valori-Q Exercise 11: Migliorare una policy Exercise 12: Iterazione della politica e iterazione del valore Exercise 13: Applicare la policy iteration per una politica ottimale Exercise 14: Implementare la value iteration

Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.

Exercise 1: Metodi Monte Carlo Exercise 2: Generazione di episodi per i metodi Monte Carlo Exercise 3: Implementare Monte Carlo a prima visita Exercise 4: Implementare Every-Visit Monte Carlo Exercise 5: Apprendimento a differenze temporali Exercise 6: Implementare la regola di aggiornamento SARSA Exercise 7: Risolvi Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementare la regola di aggiornamento del Q-learning Exercise 10: Risolvi Frozen Lake 8x8 con Q-learning Exercise 11: Valutare una policy su un Frozen Lake scivoloso

Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.

Exercise 1: Expected SARSA Exercise 2: Regola di aggiornamento di Expected SARSA Exercise 3: Applicare Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementare la regola di aggiornamento del Double Q-learning Exercise 6: Applicare il Double Q-learning Exercise 7: Bilanciare esplorazione e sfruttamento Exercise 8: Definire la funzione epsilon-greedy Exercise 9: Risolvi CliffWalking con la strategia epsilon-greedy

Esercizio attuale

Exercise 10: Risolvere CliffWalking con strategia epsilon-greedy a decadimento Exercise 11: Banditi a più braccia Exercise 12: Creare un multi-armed bandit Exercise 13: Risolvi un multi-armed bandit Exercise 14: Valutare la convergenza in un multi-armed bandit Exercise 15: Congratulazioni!