Appliquer l’itération de politique pour une politique optimale

L’itération de politique est une technique fondamentale en RL pour trouver une politique optimale. Elle comporte deux étapes principales : l’évaluation de la politique, où vous calculez la fonction de valeur d’état pour une politique donnée, et l’amélioration de la politique, où vous mettez à jour la politique à partir de ces valeurs. Vous appliquerez ces étapes de manière itérative afin de converger vers la politique optimale dans l’environnement personnalisé MyGridWorld.

La fonction render_policy() sera utilisée pour afficher les étapes effectuées par un agent selon une politique.

Les fonctions compute_state_value(state, policy) et compute_q_value(state, action, policy) ont été préchargées pour vous.

Cet exercice fait partie du cours

<cours>Reinforcement Learning avec Gymnasium en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Reinforcement Learning avec Gymnasium en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.

Exercise 1: Fondamentaux de l’apprentissage par renforcement Exercise 2: Qu’est-ce que le Reinforcement Learning ?Exercise 3: RL vs autres sous-domaines du ML Exercise 4: Scénarios d’application du RL Exercise 5: Explorer le cadre de l’RL Exercise 6: Boucle d’interaction en RL Exercise 7: Tâches de RL épisodiques et continues Exercise 8: Calcul du retour actualisé pour des stratégies d’agent Exercise 9: Interagir avec les environnements Gymnasium Exercise 10: Configurer un environnement Mountain Car Exercise 11: Visualiser l’environnement Mountain Car Exercise 12: Interagir avec l’environnement Frozen Lake

Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.

Exercise 1: Processus de décision de Markov Exercise 2: Composants MDP d’un Frozen Lake personnalisé Exercise 3: Explorer les espaces d’états et d’actions Exercise 4: Probabilités de transition et récompenses Exercise 5: Politiques et fonctions de valeur d’état Exercise 6: Définir une politique déterministe Exercise 7: Calculer les valeurs d'état pour une politique Exercise 8: Comparer des politiques Exercise 9: Fonctions de valeur d’action Exercise 10: Calcul des Q-valeurs Exercise 11: Améliorer une politique Exercise 12: Itération de politique et itération de valeur Exercise 13: Appliquer l’itération de politique pour une politique optimale

Exercice actuel

Exercise 14: Implémenter la value iteration

Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.

Exercise 1: Méthodes de Monte-Carlo Exercise 2: Génération d’épisodes pour les méthodes de Monte Carlo Exercise 3: Implémenter la méthode Monte Carlo en première visite Exercise 4: Implémenter le Monte Carlo à visites multiples Exercise 5: Apprentissage par différences temporelles Exercise 6: Implémenter la règle de mise à jour SARSA Exercise 7: Résoudre Frozen Lake 8x8 avec SARSA Exercise 8: Q-learning Exercise 9: Implémenter la règle de mise à jour de Q-learning Exercise 10: Résoudre Frozen Lake 8x8 avec Q-learning Exercise 11: Évaluer une politique sur un Frozen Lake glissant

Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.

Exercise 1: SARSA attendu Exercise 2: Règle de mise à jour Expected SARSA Exercise 3: Appliquer Expected SARSA Exercise 4: Double Q-learning Exercise 5: Mettre en œuvre la règle de mise à jour du double Q-learning Exercise 6: Appliquer le Double Q-learning Exercise 7: Équilibrer exploration et exploitation Exercise 8: Définir une fonction epsilon-greedy Exercise 9: Résoudre CliffWalking avec une stratégie epsilon-greedy Exercise 10: Résoudre CliffWalking avec une stratégie epsilon-greedy décroissante Exercise 11: Bandits à plusieurs bras Exercise 12: Créer un bandit manchot multi-bras Exercise 13: Résoudre un bandit manchot à plusieurs bras Exercise 14: Évaluer la convergence dans un bandit manchot multi-bras Exercise 15: Félicitations !