La coda a due estremità

Prendi confidenza con la struttura dati Double-Ended Queue, che userai come replay buffer.

La Double Ended Queue, o deque, è una coda a capacità limitata che "dimentica" gli elementi più vecchi man mano che se ne aggiungono di nuovi. Questo offre un'astrazione adatta a supportare il replay buffer.

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from collections import deque
buffer = deque(range(10))
print('Buffer initialized as:', buffer)
# Append 10 to the right of the buffer
buffer.____
print('Buffer after appending:', buffer)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.

Exercise 1: Introduzione al deep reinforcement learning Exercise 2: Configurazione dell'ambiente e della rete neurale Exercise 3: Ciclo di training DRL Exercise 4: Introduzione al deep Q learning Exercise 5: Deep learning e DQN Exercise 6: L'architettura della Q-Network Exercise 7: Istanziamento della Q-Network Exercise 8: L'algoritmo DQN essenziale Exercise 9: Selezione dell'azione con DQN essenziale Exercise 10: Funzione di loss del DQN essenziale Exercise 11: Addestrare il DQN essenziale

Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.

Exercise 1: DQN con experience replay Exercise 2: La coda a due estremità

Esercizio attuale

Exercise 3: Experience replay buffer Exercise 4: DQN con experience replay Exercise 5: L'algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Q-target fissi Exercise 8: Implementare l'algoritmo DQN completo Exercise 9: Double DQN Exercise 10: Rete online e rete target in DDQN Exercise 11: Addestrare il Double DQN Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay buffer Exercise 14: Campionare dal buffer PER Exercise 15: DQN con prioritized experience replay

Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.

Exercise 1: Introduzione ai metodi policy gradient Exercise 2: L'architettura della rete di policy Exercise 3: Lavorare con distribuzioni discrete Exercise 4: Policy gradient e REINFORCE Exercise 5: Selezione dell'azione in REINFORCE Exercise 6: Addestrare l'algoritmo REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Rete del Critic Exercise 9: Calcolo delle loss di Actor-Critic Exercise 10: Addestrare l’algoritmo A2C

Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.

Exercise 1: Proximal Policy Optimization Exercise 2: Il rapporto di probabilità con clipping Exercise 3: La funzione obiettivo surrogata con clipping Exercise 4: Entropia aggiuntiva ed entro PPO Exercise 5: Gioca con l'entropia Exercise 6: Addestrare l'algoritmo PPO Exercise 7: Aggiornamenti in batch nel policy gradient Exercise 8: Minibatch e DRL Exercise 9: A2C con aggiornamenti in batch Exercise 10: Ottimizzazione degli iperparametri con Optuna Exercise 11: Iperparametro o no?Exercise 12: Mettiamo le mani su Optuna Exercise 13: Congratulazioni!