Aktionsauswahl in REINFORCE

1
Einführung in Deep Reinforcement Learning
Free
Entdecke, wie Deep Reinforcement Learning das traditionelle Reinforcement Learning verbessert, während du deinen ersten Deep Q Learning-Algorithmus studierst und implementierst.
2
Deep Q-learning
Tauche ein in das Deep Q-learning, indem du den ursprünglichen DQN Algorithmus mit Experience Replay, Epsilon-Greediness und festen Q-Zielen implementierst. Über DQN hinaus wirst du zwei faszinierende Erweiterungen kennenlernen, die die Leistung und Stabilität von Deep Q-learning verbessern: Doppelte DQN und priorisierte Erfahrungswiederholung.
3
Einführung in politische Gradientenmethoden
Lerne die grundlegenden Konzepte der politischen Gradientenmethoden auf DRL kennen. Du beginnst mit dem politischen Gradiententheorem, das die Grundlage für diese Methoden bildet. Dann implementierst du den REINFORCE Algorithmus, einen leistungsstarken Ansatz zum Lernen von Richtlinien. Das Kapitel führt dich dann durch die Actor-Critic-Methoden und konzentriert sich dabei auf den Advantage Actor-Critic (A2C)-Algorithmus, der die Stärken der Policy-Gradienten- und der wertbasierten Methoden kombiniert, um die Lerneffizienz und die Stabilität zu verbessern.
4
Proximal Policy Optimization und DRL Tipps
Erforsche Proximal Policy Optimization (PPO) für eine robuste DRL Leistung. Als Nächstes wirst du die Verwendung eines Entropie-Bonus in PPO untersuchen, der die Erkundung fördert, indem er eine vorzeitige Konvergenz zu deterministischen Strategien verhindert. Du lernst auch etwas über Batch-Updates bei Policy-Gradienten-Methoden. Schließlich lernst du die Optimierung von Hyperparametern mit Optuna kennen, einem leistungsstarken Tool zur Optimierung der Leistung deiner DRL Modelle.

Initializing

Einführung in Deep Reinforcement Learning

Deep Q-learning

Einführung in politische Gradientenmethoden

Proximal Policy Optimization und DRL Tipps

Exercise

Aktionsauswahl in REINFORCE

Instructions