or
Deze oefening maakt deel uit van de cursus
Ontdek hoe deep reinforcement learning voortbouwt op traditioneel Reinforcement Learning terwijl je je eerste Deep Q Learning-algoritme bestudeert en implementeert.
Duik in Deep Q-learning door het originele DQN-algoritme te implementeren, met Experience Replay, epsilon-greediness en vaste Q-doelen. Voorbij DQN verken je daarna twee fascinerende uitbreidingen die de prestaties en stabiliteit van Deep Q-learning verbeteren: Double DQN en Prioritized Experience Replay.
Huidige oefening
Leer de basisconcepten van policy gradient-methoden binnen DRL. Je begint met het policy gradient-theorema, de basis voor deze methoden. Vervolgens implementeer je het REINFORCE-algoritme, een krachtige aanpak om policies te leren. Daarna ga je door met Actor-Critic-methoden, met de focus op het Advantage Actor-Critic (A2C)-algoritme, dat de sterke punten van policy gradient- en value-based methoden combineert om leerefficiëntie en stabiliteit te vergroten.
Verken Proximal Policy Optimization (PPO) voor robuuste DRL-prestaties. Vervolgens bekijk je het gebruik van een entropiebonus in PPO, die exploratie stimuleert door voortijdige convergentie naar deterministische policies te voorkomen. Je leert ook over batchupdates in policy gradient-methoden. Tot slot leer je hyperparameteroptimalisatie met Optuna, een krachtige tool om de prestaties van je DRL-modellen te optimaliseren.