Funzione di loss del DQN essenziale

Ora che la funzione select_action() è pronta, ti manca solo un ultimo passo per poter addestrare il tuo agente: implementerai calculate_loss().

calculate_loss() restituisce la loss della rete per un dato passo dell'episodio.

Per riferimento, la loss è definita come segue:

Nel seguente esempio, i dati sono già stati caricati nell'esercizio:

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Ottieni il Q-value dello stato corrente.
Ottieni il Q-value del prossimo stato.
Calcola il Q-value target, o TD-target.
Calcola la funzione di loss, cioè il Bellman Error al quadrato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def calculate_loss(q_network, state, action, next_state, reward, done):
    q_values = q_network(state)
    print(f'Q-values: {q_values}')
    # Obtain the current state Q-value
    current_state_q_value = q_values[____]
    print(f'Current state Q-value: {current_state_q_value:.2f}')
    # Obtain the next state Q-value
    next_state_q_value = q_network(next_state).____    
    print(f'Next state Q-value: {next_state_q_value:.2f}')
    # Calculate the target Q-value
    target_q_value = ____ + gamma * ____ * (1-done)
    print(f'Target Q-value: {target_q_value:.2f}')
    # Obtain the loss
    loss = nn.MSELoss()(____, ____)
    print(f'Loss: {loss:.2f}')
    return loss

calculate_loss(q_network, state, action, next_state, reward, done)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.

Exercise 1: Introduzione al deep reinforcement learning Exercise 2: Configurazione dell'ambiente e della rete neurale Exercise 3: Ciclo di training DRL Exercise 4: Introduzione al deep Q learning Exercise 5: Deep learning e DQN Exercise 6: L'architettura della Q-Network Exercise 7: Istanziamento della Q-Network Exercise 8: L'algoritmo DQN essenziale Exercise 9: Selezione dell'azione con DQN essenziale Exercise 10: Funzione di loss del DQN essenziale

Esercizio attuale

Exercise 11: Addestrare il DQN essenziale

Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.

Exercise 1: DQN con experience replay Exercise 2: La coda a due estremità Exercise 3: Experience replay buffer Exercise 4: DQN con experience replay Exercise 5: L'algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Q-target fissi Exercise 8: Implementare l'algoritmo DQN completo Exercise 9: Double DQN Exercise 10: Rete online e rete target in DDQN Exercise 11: Addestrare il Double DQN Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay buffer Exercise 14: Campionare dal buffer PER Exercise 15: DQN con prioritized experience replay

Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.

Exercise 1: Introduzione ai metodi policy gradient Exercise 2: L'architettura della rete di policy Exercise 3: Lavorare con distribuzioni discrete Exercise 4: Policy gradient e REINFORCE Exercise 5: Selezione dell'azione in REINFORCE Exercise 6: Addestrare l'algoritmo REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Rete del Critic Exercise 9: Calcolo delle loss di Actor-Critic Exercise 10: Addestrare l’algoritmo A2C

Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.

Exercise 1: Proximal Policy Optimization Exercise 2: Il rapporto di probabilità con clipping Exercise 3: La funzione obiettivo surrogata con clipping Exercise 4: Entropia aggiuntiva ed entro PPO Exercise 5: Gioca con l'entropia Exercise 6: Addestrare l'algoritmo PPO Exercise 7: Aggiornamenti in batch nel policy gradient Exercise 8: Minibatch e DRL Exercise 9: A2C con aggiornamenti in batch Exercise 10: Ottimizzazione degli iperparametri con Optuna Exercise 11: Iperparametro o no?Exercise 12: Mettiamo le mani su Optuna Exercise 13: Congratulazioni!