Calcolare i ritorni scontati per le strategie dell'agente

I ritorni scontati aiutano a valutare il totale delle ricompense che un agente può aspettarsi di accumulare nel tempo, tenendo conto che le ricompense future valgono meno di quelle immediate. Ti vengono forniti i valori attesi delle ricompense per due strategie diverse (exp_rewards_strategy_1 e exp_rewards_strategy_2) di un agente RL. Il tuo compito è calcolare il ritorno scontato per ciascuna strategia e determinare quale produce il ritorno più alto.

La libreria numpy è già stata importata come np.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.

Exercise 1: Fondamenti del reinforcement learning Exercise 2: Che cos'è il Reinforcement Learning?Exercise 3: RL vs. altri sotto-domini di ML Exercise 4: Scenari per applicare l'RL Exercise 5: Orientarsi nel framework RL Exercise 6: Ciclo di interazione RL Exercise 7: Compiti di RL episodici e continui Exercise 8: Calcolare i ritorni scontati per le strategie dell'agente

Esercizio attuale

Exercise 9: Interagire con gli ambienti di Gymnasium Exercise 10: Configurare un ambiente Mountain Car Exercise 11: Visualizzare l'ambiente Mountain Car Exercise 12: Interagire con l'ambiente Frozen Lake

Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.

Exercise 1: Processi decisionali di Markov Exercise 2: Componenti personalizzati dell'MDP Frozen Lake Exercise 3: Esplorare gli spazi degli stati e delle azioni Exercise 4: Probabilità di transizione e ricompense Exercise 5: Policy e funzioni di valore di stato Exercise 6: Definire una policy deterministica Exercise 7: Calcolo dei valori di stato per una policy Exercise 8: Confrontare le policy Exercise 9: Funzioni valore-azione Exercise 10: Calcolo dei valori-Q Exercise 11: Migliorare una policy Exercise 12: Iterazione della politica e iterazione del valore Exercise 13: Applicare la policy iteration per una politica ottimale Exercise 14: Implementare la value iteration

Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.

Exercise 1: Metodi Monte Carlo Exercise 2: Generazione di episodi per i metodi Monte Carlo Exercise 3: Implementare Monte Carlo a prima visita Exercise 4: Implementare Every-Visit Monte Carlo Exercise 5: Apprendimento a differenze temporali Exercise 6: Implementare la regola di aggiornamento SARSA Exercise 7: Risolvi Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementare la regola di aggiornamento del Q-learning Exercise 10: Risolvi Frozen Lake 8x8 con Q-learning Exercise 11: Valutare una policy su un Frozen Lake scivoloso

Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.

Exercise 1: Expected SARSA Exercise 2: Regola di aggiornamento di Expected SARSA Exercise 3: Applicare Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementare la regola di aggiornamento del Double Q-learning Exercise 6: Applicare il Double Q-learning Exercise 7: Bilanciare esplorazione e sfruttamento Exercise 8: Definire la funzione epsilon-greedy Exercise 9: Risolvi CliffWalking con la strategia epsilon-greedy Exercise 10: Risolvere CliffWalking con strategia epsilon-greedy a decadimento Exercise 11: Banditi a più braccia Exercise 12: Creare un multi-armed bandit Exercise 13: Risolvi un multi-armed bandit Exercise 14: Valutare la convergenza in un multi-armed bandit Exercise 15: Congratulazioni!