Online netwerk en targetnetwerk in DDQN

In Double DQN, net als in DQN met vaste Q-doelen, zijn er twee neurale netwerken in het spel: het online netwerk en het targetnetwerk. Het is belangrijk om hun respectieve doelen te begrijpen en de rol die ze spelen in de DDQN-trainingslus.

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Ontdek hoe deep reinforcement learning voortbouwt op traditioneel Reinforcement Learning terwijl je je eerste Deep Q Learning-algoritme bestudeert en implementeert.

Exercise 1: Introductie tot deep reinforcement learning Exercise 2: Omgeving en neuraal netwerk instellen Exercise 3: DRL-trainingslus Exercise 4: Introductie tot deep Q-learning Exercise 5: Deep learning en DQN Exercise 6: De Q-Network-architectuur Exercise 7: Het Q-netwerk instantiëren Exercise 8: Het kale DQN-algoritme Exercise 9: Barebone DQN-actie-selectie Exercise 10: Barebone DQN-verliesfunctie Exercise 11: Een barebone DQN trainen

Duik in Deep Q-learning door het originele DQN-algoritme te implementeren, met Experience Replay, epsilon-greediness en vaste Q-doelen. Voorbij DQN verken je daarna twee fascinerende uitbreidingen die de prestaties en stabiliteit van Deep Q-learning verbeteren: Double DQN en Prioritized Experience Replay.

Exercise 1: DQN met experience replay Exercise 2: De double-ended queue Exercise 3: Experience replay-buffer Exercise 4: DQN met experience replay Exercise 5: Het complete DQN-algoritme Exercise 6: Epsilon-greediness Exercise 7: Gefixeerde Q-targets Exercise 8: Het complete DQN-algoritme implementeren Exercise 9: Double DQN Exercise 10: Online netwerk en targetnetwerk in DDQN

Huidige oefening

Exercise 11: De Double DQN trainen Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay-buffer Exercise 14: Steekproeven uit de PER-buffer Exercise 15: DQN met prioritaire experience replay

Leer de basisconcepten van policy gradient-methoden binnen DRL. Je begint met het policy gradient-theorema, de basis voor deze methoden. Vervolgens implementeer je het REINFORCE-algoritme, een krachtige aanpak om policies te leren. Daarna ga je door met Actor-Critic-methoden, met de focus op het Advantage Actor-Critic (A2C)-algoritme, dat de sterke punten van policy gradient- en value-based methoden combineert om leerefficiëntie en stabiliteit te vergroten.

Exercise 1: Introductie tot policy gradient Exercise 2: De architectuur van het policy-netwerk Exercise 3: Werken met discrete verdelingen Exercise 4: Policy gradient en REINFORCE Exercise 5: Actieselectie in REINFORCE Exercise 6: De REINFORCE-algoritme trainen Exercise 7: Advantage Actor-Critic Exercise 8: Critic-netwerk Exercise 9: Actor-Critic: verliesberekeningen Exercise 10: Het A2C-algoritme trainen

Verken Proximal Policy Optimization (PPO) voor robuuste DRL-prestaties. Vervolgens bekijk je het gebruik van een entropiebonus in PPO, die exploratie stimuleert door voortijdige convergentie naar deterministische policies te voorkomen. Je leert ook over batchupdates in policy gradient-methoden. Tot slot leer je hyperparameteroptimalisatie met Optuna, een krachtige tool om de prestaties van je DRL-modellen te optimaliseren.

Exercise 1: Proximal policy optimization Exercise 2: De afgeknipte waarschijnlijkheidsratio Exercise 3: De geclipte surrogaatdoelfunctie Exercise 4: Entropiebonus en PPO Exercise 5: Entropie-speeltuin Exercise 6: De PPO-algoritme trainen Exercise 7: Batch-updates in policy gradient Exercise 8: Minibatch en DRL Exercise 9: A2C met batch-updates Exercise 10: Hyperparameteroptimalisatie met Optuna Exercise 11: Hyperparameter of niet?Exercise 12: Aan de slag met Optuna Exercise 13: Gefeliciteerd!