Ontdek hoe deep reinforcement learning voortbouwt op traditioneel Reinforcement Learning terwijl je je eerste Deep Q Learning-algoritme bestudeert en implementeert.

Introductie tot deep reinforcement learning

Omgeving en neuraal netwerk instellen

DRL-trainingslus

Introductie tot deep Q-learning

Deep learning en DQN

De Q-Network-architectuur

Het Q-netwerk instantiëren

Het kale DQN-algoritme

Barebone DQN-actie-selectie

Barebone DQN-verliesfunctie

Een barebone DQN trainen

Introductie tot Deep Reinforcement Learning

Duik in Deep Q-learning door het originele DQN-algoritme te implementeren, met Experience Replay, epsilon-greediness en vaste Q-doelen. Voorbij DQN verken je daarna twee fascinerende uitbreidingen die de prestaties en stabiliteit van Deep Q-learning verbeteren: Double DQN en Prioritized Experience Replay.

DQN met experience replay

De double-ended queue

Experience replay-buffer

Het complete DQN-algoritme

Epsilon-greediness

Gefixeerde Q-targets

Het complete DQN-algoritme implementeren

Double DQN

Opties

Online netwerk

Targetnetwerk

Online netwerk en targetnetwerk in DDQN

De Double DQN trainen

Prioritized experience replay

Prioritized experience replay-buffer

Steekproeven uit de PER-buffer

DQN met prioritaire experience replay

Deep Q-learning

Leer de basisconcepten van policy gradient-methoden binnen DRL. Je begint met het policy gradient-theorema, de basis voor deze methoden. Vervolgens implementeer je het REINFORCE-algoritme, een krachtige aanpak om policies te leren. Daarna ga je door met Actor-Critic-methoden, met de focus op het Advantage Actor-Critic (A2C)-algoritme, dat de sterke punten van policy gradient- en value-based methoden combineert om leerefficiëntie en stabiliteit te vergroten.

Introductie tot policy gradient

De architectuur van het policy-netwerk

Werken met discrete verdelingen

Policy gradient en REINFORCE

Actieselectie in REINFORCE

De REINFORCE-algoritme trainen

Advantage Actor-Critic

Critic-netwerk

Actor-Critic: verliesberekeningen

Het A2C-algoritme trainen

Introductie tot Policy Gradient-methoden

Verken Proximal Policy Optimization (PPO) voor robuuste DRL-prestaties. Vervolgens bekijk je het gebruik van een entropiebonus in PPO, die exploratie stimuleert door voortijdige convergentie naar deterministische policies te voorkomen. Je leert ook over batchupdates in policy gradient-methoden. Tot slot leer je hyperparameteroptimalisatie met Optuna, een krachtige tool om de prestaties van je DRL-modellen te optimaliseren.

Proximal policy optimization

De afgeknipte waarschijnlijkheidsratio

De geclipte surrogaatdoelfunctie

Entropiebonus en PPO

Entropie-speeltuin

De PPO-algoritme trainen

Batch-updates in policy gradient

Minibatch en DRL

A2C met batch-updates

Hyperparameteroptimalisatie met Optuna

Hyperparameter of niet?

Aan de slag met Optuna

Gefeliciteerd!

Proximal Policy Optimization en DRL-tips

Ga aan de slag met het versterken van machines via Deep Reinforcement Learning (DRL). Deze cursus biedt hands-on ervaring met krachtige algoritmen met PyTorch en Gymnasium.
Begin met de basis van DRL en traditioneel Reinforcement Learning, en implementeer daarna Deep Q-Networks (DQN) met geavanceerde verfijningen zoals Prioritized Experience Replay.
Breid je vaardigheden uit met policy-gebaseerde methoden en verken industriestandaard algoritmen zoals Proximal Policy Optimization (PPO), voordat je je modellen optimaliseert met Optuna.

Ontdek de nieuwste technieken waarmee machines kunnen leren en communiceren met hun omgeving. Je duikt in de wereld van Deep Reinforcement Learning (DRL) en doet praktijkervaring op met de krachtigste algoritmen die dit vakgebied vooruit helpen. Je gaat PyTorch en de Gymnasium-omgeving gebruiken om je eigen agents te bouwen.

<h2>Leer de basis van diepgaand versterkend leren</h2>

Onze reis begint met de basis van DRL en hoe dat zich verhoudt tot traditioneel reinforcement learning. Van daaruit gaan we snel verder met het implementeren van Deep Q-Networks (DQN) in PyTorch, inclusief geavanceerde verfijningen zoals Double DQN en Prioritized Experience Replay om je modellen een boost te geven.

Breng je vaardigheden naar een hoger niveau terwijl je beleidsmatige methoden ontdekt. Je leert en past belangrijke policy-gradient-technieken toe, zoals REINFORCE en Actor-Critic-methoden.

<h2>Gebruik geavanceerde algoritmen</h2>

Je komt krachtige DRL-algoritmen tegen die tegenwoordig veel in de industrie worden gebruikt, zoals Proximal Policy Optimization (PPO). Je doet praktijkervaring op met de technieken die zorgen voor doorbraken in robotica, game-AI en nog veel meer. Tot slot leer je hoe je je modellen kunt verbeteren met Optuna voor het afstemmen van hyperparameters.

Aan het einde van deze cursus heb je de vaardigheden om deze geavanceerde technieken toe te passen op echte problemen en het volledige potentieel van DRL te benutten!

Intermediate Deep Learning with PyTorch

Reinforcement Learning with Gymnasium in Python

Leer en gebruik krachtige Deep Reinforcement Learning-algoritmen, inclusief verfijning en optimalisatie.

Deep Reinforcement Learning in Python

Leer en gebruik krachtige Deep Reinforcement Learning-algoritmen, inclusief verfijnings- en optimalisatietechnieken.

Double DQN

Create Your Free Account