or
Questo esercizio fa parte del corso
Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.
Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.
Esercizio attuale
Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.
Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.