Implémenter la value iteration

La value iteration est une méthode clé en RL pour trouver la politique optimale. Elle améliore itérativement la fonction de valeur pour chaque état jusqu’à convergence, ce qui permet de découvrir la politique optimale. Vous commencez avec une fonction de valeur V et une policy initialisées et déjà chargées pour vous. Ensuite, vous les mettrez à jour dans une boucle jusqu’à ce que la fonction de valeur converge, puis vous verrez la politique en action.

La fonction get_max_action_and_value(state, V) a été préchargée pour vous.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

Pour chaque état, trouvez l’action avec la valeur de Q maximale (max_action) et sa valeur correspondante (max_q_value).
Mettez à jour le dictionnaire new_V et la policy en fonction de max_action et max_q_value.
Vérifiez la convergence en contrôlant que la différence entre new_v et V pour chaque état est inférieure à threshold.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

threshold = 0.001
while True:
  new_V = {}
  for state in range(num_states-1):
    # Get action with maximum Q-value and its value 
    max_action, max_q_value = ____
    # Update the value function and policy
    new_V[state] = ____
    policy[state] = ____
  # Test if change in state values is negligeable
  if all(abs(____ - ____) < ____ for state in ____):
    break
  V = new_V
render_policy(policy)

Modifier et exécuter le code

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.

Exercise 1: Fondamentaux de l’apprentissage par renforcement Exercise 2: Qu’est-ce que le Reinforcement Learning ?Exercise 3: RL vs autres sous-domaines du ML Exercise 4: Scénarios d’application du RL Exercise 5: Explorer le cadre de l’RL Exercise 6: Boucle d’interaction en RL Exercise 7: Tâches de RL épisodiques et continues Exercise 8: Calcul du retour actualisé pour des stratégies d’agent Exercise 9: Interagir avec les environnements Gymnasium Exercise 10: Configurer un environnement Mountain Car Exercise 11: Visualiser l’environnement Mountain Car Exercise 12: Interagir avec l’environnement Frozen Lake

Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.

Exercise 1: Processus de décision de Markov Exercise 2: Composants MDP d’un Frozen Lake personnalisé Exercise 3: Explorer les espaces d’états et d’actions Exercise 4: Probabilités de transition et récompenses Exercise 5: Politiques et fonctions de valeur d’état Exercise 6: Définir une politique déterministe Exercise 7: Calculer les valeurs d'état pour une politique Exercise 8: Comparer des politiques Exercise 9: Fonctions de valeur d’action Exercise 10: Calcul des Q-valeurs Exercise 11: Améliorer une politique Exercise 12: Itération de politique et itération de valeur Exercise 13: Appliquer l’itération de politique pour une politique optimale Exercise 14: Implémenter la value iteration

Exercice en cours

Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.

Exercise 1: Méthodes de Monte-Carlo Exercise 2: Génération d’épisodes pour les méthodes de Monte Carlo Exercise 3: Implémenter la méthode Monte Carlo en première visite Exercise 4: Implémenter le Monte Carlo à visites multiples Exercise 5: Apprentissage par différences temporelles Exercise 6: Implémenter la règle de mise à jour SARSA Exercise 7: Résoudre Frozen Lake 8x8 avec SARSA Exercise 8: Q-learning Exercise 9: Implémenter la règle de mise à jour de Q-learning Exercise 10: Résoudre Frozen Lake 8x8 avec Q-learning Exercise 11: Évaluer une politique sur un Frozen Lake glissant

Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.

Exercise 1: SARSA attendu Exercise 2: Règle de mise à jour Expected SARSA Exercise 3: Appliquer Expected SARSA Exercise 4: Double Q-learning Exercise 5: Mettre en œuvre la règle de mise à jour du double Q-learning Exercise 6: Appliquer le Double Q-learning Exercise 7: Équilibrer exploration et exploitation Exercise 8: Définir une fonction epsilon-greedy Exercise 9: Résoudre CliffWalking avec une stratégie epsilon-greedy Exercise 10: Résoudre CliffWalking avec une stratégie epsilon-greedy décroissante Exercise 11: Bandits à plusieurs bras Exercise 12: Créer un bandit manchot multi-bras Exercise 13: Résoudre un bandit manchot à plusieurs bras Exercise 14: Évaluer la convergence dans un bandit manchot multi-bras Exercise 15: Félicitations !