Calcolo delle loss di Actor-Critic

Come ultimo passo prima di addestrare il tuo agente con A2C, scrivi una funzione calculate_losses() che restituisca le loss per entrambe le reti.

Per riferimento, queste sono le espressioni rispettivamente per le funzioni di loss di actor e critic:

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Calcola il target TD.
Calcola la loss per la rete Actor.
Calcola la loss per la rete Critic.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def calculate_losses(critic_network, action_log_prob, 
                     reward, state, next_state, done):
    value = critic_network(state)
    next_value = critic_network(next_state)
    # Calculate the TD target
    td_target = (____ + gamma * ____ * (1-done))
    td_error = td_target - value
    # Calculate the actor loss
    actor_loss = -____ * ____.detach()
    # Calculate the critic loss
    critic_loss = ____
    return actor_loss, critic_loss
  
actor_loss, critic_loss = calculate_losses(
        critic_network, action_log_prob, 
        reward, state, next_state, done
)
print(round(actor_loss.item(), 2), round(critic_loss.item(), 2))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.

Exercise 1: Introduzione al deep reinforcement learning Exercise 2: Configurazione dell'ambiente e della rete neurale Exercise 3: Ciclo di training DRL Exercise 4: Introduzione al deep Q learning Exercise 5: Deep learning e DQN Exercise 6: L'architettura della Q-Network Exercise 7: Istanziamento della Q-Network Exercise 8: L'algoritmo DQN essenziale Exercise 9: Selezione dell'azione con DQN essenziale Exercise 10: Funzione di loss del DQN essenziale Exercise 11: Addestrare il DQN essenziale

Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.

Exercise 1: DQN con experience replay Exercise 2: La coda a due estremità Exercise 3: Experience replay buffer Exercise 4: DQN con experience replay Exercise 5: L'algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Q-target fissi Exercise 8: Implementare l'algoritmo DQN completo Exercise 9: Double DQN Exercise 10: Rete online e rete target in DDQN Exercise 11: Addestrare il Double DQN Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay buffer Exercise 14: Campionare dal buffer PER Exercise 15: DQN con prioritized experience replay

Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.

Exercise 1: Introduzione ai metodi policy gradient Exercise 2: L'architettura della rete di policy Exercise 3: Lavorare con distribuzioni discrete Exercise 4: Policy gradient e REINFORCE Exercise 5: Selezione dell'azione in REINFORCE Exercise 6: Addestrare l'algoritmo REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Rete del Critic Exercise 9: Calcolo delle loss di Actor-Critic

Esercizio attuale

Exercise 10: Addestrare l’algoritmo A2C

Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.

Exercise 1: Proximal Policy Optimization Exercise 2: Il rapporto di probabilità con clipping Exercise 3: La funzione obiettivo surrogata con clipping Exercise 4: Entropia aggiuntiva ed entro PPO Exercise 5: Gioca con l'entropia Exercise 6: Addestrare l'algoritmo PPO Exercise 7: Aggiornamenti in batch nel policy gradient Exercise 8: Minibatch e DRL Exercise 9: A2C con aggiornamenti in batch Exercise 10: Ottimizzazione degli iperparametri con Optuna Exercise 11: Iperparametro o no?Exercise 12: Mettiamo le mani su Optuna Exercise 13: Congratulazioni!