or
Cet exercice fait partie du cours
Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.
Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.
Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.
Exercice en cours
Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.