or
Cet exercice fait partie du cours
Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.
Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.
Exercice en cours
Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.
Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.