IniziaInizia gratis

La funzione obiettivo surrogata con clipping

Implementa la funzione calculate_loss() per PPO. Questo richiede di codificare l'innovazione chiave di PPO: la funzione di loss surrogata con clipping. Serve a limitare l'aggiornamento della policy per evitare che si allontani troppo dalla policy precedente a ogni passo.

La formula per l'obiettivo surrogato con clipping è

Nel tuo environment, l'hyperparameter di clipping epsilon è impostato a 0.2.

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Ottieni i rapporti di probabilità tra \pi_\theta e \pi_{\theta_{old}} (versioni non troncata e troncata).
  • Calcola gli obiettivi surrogati (versioni non troncata e troncata).
  • Calcola l'obiettivo surrogato con clipping di PPO.
  • Calcola la loss dell'actor.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

def calculate_losses(critic_network, action_log_prob, action_log_prob_old,
                     reward, state, next_state, done):
    value = critic_network(state)
    next_value = critic_network(next_state)
    td_target = (reward + gamma * next_value * (1-done))
    td_error = td_target - value
    # Obtain the probability ratios
    ____, ____ = calculate_ratios(action_log_prob, action_log_prob_old, epsilon=.2)
    # Calculate the surrogate objectives
    surr1 = ratio * ____.____()
    surr2 = clipped_ratio * ____.____()    
    # Calculate the clipped surrogate objective
    objective = torch.min(____, ____)
    # Calculate the actor loss
    actor_loss = ____
    critic_loss = td_error ** 2
    return actor_loss, critic_loss
  
actor_loss, critic_loss = calculate_losses(critic_network, action_log_prob, action_log_prob_old,
                                           reward, state, next_state, done)
print(actor_loss, critic_loss)
Modifica ed esegui il codice