Résoudre Frozen Lake 8x8 avec Q-learning

Dans cet exercice, vous allez appliquer l’algorithme de Q-learning pour apprendre une politique optimale afin de naviguer dans l’environnement Frozen Lake 8x8, cette fois avec la condition « slippery » activée. Le défi introduit des transitions stochastiques, rendant les déplacements de l’agent imprévisibles et simulant ainsi de façon plus réaliste des situations du monde réel.

Une Q-table Q a été initialisée et préchargée pour vous, ainsi que la fonction update_q_table() de l’exercice précédent et une liste vide rewards_per_episode qui contiendra la récompense totale accumulée à chaque épisode.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

Pour chaque épisode, exécutez l’action sélectionnée et observez la récompense et l’état suivant.
Mettez à jour la Q-table.
Ajoutez total_reward à la liste rewards_per_episode.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

for episode in range(10000):
    state, info = env.reset()
    total_reward = 0
    terminated = False
    while not terminated:
        action = env.action_space.sample()
        # Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Update the Q-table
        ____
        state = next_state
        total_reward += reward
    # Append the total reward to the rewards list    
    rewards_per_episode.____(____)
print("Average reward per random episode: ", np.mean(rewards_per_episode))

Modifier et exécuter le code

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.

Exercise 1: Fondamentaux de l’apprentissage par renforcement Exercise 2: Qu’est-ce que le Reinforcement Learning ?Exercise 3: RL vs autres sous-domaines du ML Exercise 4: Scénarios d’application du RL Exercise 5: Explorer le cadre de l’RL Exercise 6: Boucle d’interaction en RL Exercise 7: Tâches de RL épisodiques et continues Exercise 8: Calcul du retour actualisé pour des stratégies d’agent Exercise 9: Interagir avec les environnements Gymnasium Exercise 10: Configurer un environnement Mountain Car Exercise 11: Visualiser l’environnement Mountain Car Exercise 12: Interagir avec l’environnement Frozen Lake

Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.

Exercise 1: Processus de décision de Markov Exercise 2: Composants MDP d’un Frozen Lake personnalisé Exercise 3: Explorer les espaces d’états et d’actions Exercise 4: Probabilités de transition et récompenses Exercise 5: Politiques et fonctions de valeur d’état Exercise 6: Définir une politique déterministe Exercise 7: Calculer les valeurs d'état pour une politique Exercise 8: Comparer des politiques Exercise 9: Fonctions de valeur d’action Exercise 10: Calcul des Q-valeurs Exercise 11: Améliorer une politique Exercise 12: Itération de politique et itération de valeur Exercise 13: Appliquer l’itération de politique pour une politique optimale Exercise 14: Implémenter la value iteration

Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.

Exercise 1: Méthodes de Monte-Carlo Exercise 2: Génération d’épisodes pour les méthodes de Monte Carlo Exercise 3: Implémenter la méthode Monte Carlo en première visite Exercise 4: Implémenter le Monte Carlo à visites multiples Exercise 5: Apprentissage par différences temporelles Exercise 6: Implémenter la règle de mise à jour SARSA Exercise 7: Résoudre Frozen Lake 8x8 avec SARSA Exercise 8: Q-learning Exercise 9: Implémenter la règle de mise à jour de Q-learning Exercise 10: Résoudre Frozen Lake 8x8 avec Q-learning

Exercice en cours

Exercise 11: Évaluer une politique sur un Frozen Lake glissant

Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.

Exercise 1: SARSA attendu Exercise 2: Règle de mise à jour Expected SARSA Exercise 3: Appliquer Expected SARSA Exercise 4: Double Q-learning Exercise 5: Mettre en œuvre la règle de mise à jour du double Q-learning Exercise 6: Appliquer le Double Q-learning Exercise 7: Équilibrer exploration et exploitation Exercise 8: Définir une fonction epsilon-greedy Exercise 9: Résoudre CliffWalking avec une stratégie epsilon-greedy Exercise 10: Résoudre CliffWalking avec une stratégie epsilon-greedy décroissante Exercise 11: Bandits à plusieurs bras Exercise 12: Créer un bandit manchot multi-bras Exercise 13: Résoudre un bandit manchot à plusieurs bras Exercise 14: Évaluer la convergence dans un bandit manchot multi-bras Exercise 15: Félicitations !