Il rapporto di probabilità con clipping

Ora implementerai il rapporto di probabilità con clipping, una componente essenziale della funzione obiettivo di PPO.

Per riferimento, il rapporto di probabilità è definito come: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

E il rapporto di probabilità con clipping è: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Ottieni la probabilità dell'azione prob da action_log_prob, e prob_old da action_log_prob_old.
Scollega il log-prob delle azioni vecchie dal grafo di calcolo dei gradienti di torch.
Calcola il rapporto di probabilità.
Applica il clipping all'obiettivo surrogato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

log_prob = torch.tensor(.5).log()
log_prob_old = torch.tensor(.4).log()

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):
    # Obtain prob and prob_old
    prob = ____
    prob_old = ____
    # Detach the old action log prob
    prob_old_detached = ____.____()
    # Calculate the probability ratio
    ratio = ____ / ____
    # Apply clipping
    clipped_ratio = torch.____(ratio, ____, ____)
    print(f"+{'-'*29}+\n|         Ratio: {str(ratio)} |\n| Clipped ratio: {str(clipped_ratio)} |\n+{'-'*29}+\n")
    return (ratio, clipped_ratio)

_ = calculate_ratios(log_prob, log_prob_old, epsilon=.2)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.

Exercise 1: Introduzione al deep reinforcement learning Exercise 2: Configurazione dell'ambiente e della rete neurale Exercise 3: Ciclo di training DRL Exercise 4: Introduzione al deep Q learning Exercise 5: Deep learning e DQN Exercise 6: L'architettura della Q-Network Exercise 7: Istanziamento della Q-Network Exercise 8: L'algoritmo DQN essenziale Exercise 9: Selezione dell'azione con DQN essenziale Exercise 10: Funzione di loss del DQN essenziale Exercise 11: Addestrare il DQN essenziale

Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.

Exercise 1: DQN con experience replay Exercise 2: La coda a due estremità Exercise 3: Experience replay buffer Exercise 4: DQN con experience replay Exercise 5: L'algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Q-target fissi Exercise 8: Implementare l'algoritmo DQN completo Exercise 9: Double DQN Exercise 10: Rete online e rete target in DDQN Exercise 11: Addestrare il Double DQN Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay buffer Exercise 14: Campionare dal buffer PER Exercise 15: DQN con prioritized experience replay

Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.

Exercise 1: Introduzione ai metodi policy gradient Exercise 2: L'architettura della rete di policy Exercise 3: Lavorare con distribuzioni discrete Exercise 4: Policy gradient e REINFORCE Exercise 5: Selezione dell'azione in REINFORCE Exercise 6: Addestrare l'algoritmo REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Rete del Critic Exercise 9: Calcolo delle loss di Actor-Critic Exercise 10: Addestrare l’algoritmo A2C

Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.

Exercise 1: Proximal Policy Optimization Exercise 2: Il rapporto di probabilità con clipping

Esercizio attuale

Exercise 3: La funzione obiettivo surrogata con clipping Exercise 4: Entropia aggiuntiva ed entro PPO Exercise 5: Gioca con l'entropia Exercise 6: Addestrare l'algoritmo PPO Exercise 7: Aggiornamenti in batch nel policy gradient Exercise 8: Minibatch e DRL Exercise 9: A2C con aggiornamenti in batch Exercise 10: Ottimizzazione degli iperparametri con Optuna Exercise 11: Iperparametro o no?Exercise 12: Mettiamo le mani su Optuna Exercise 13: Congratulazioni!