Évaluer une politique sur un Frozen Lake glissant

Dans un environnement Frozen Lake glissant, se contenter de déduire la politique à partir d’une Q-table apprise ne suffit pas pour évaluer son efficacité. Pour juger avec précision la pertinence d’une politique apprise, vous devez jouer plusieurs épisodes et observer la récompense moyenne obtenue. Cet exercice compare l’efficacité de la politique apprise à une référence obtenue en suivant une politique aléatoire pendant l’entraînement. Votre tâche consiste à exécuter la politique apprise sur plusieurs épisodes et à analyser ses performances à partir des récompenses moyennes collectées, puis à les comparer aux récompenses moyennes collectées durant la phase avec politique aléatoire.

La Q-table Q, num_states, num_actions et avg_reward_per_random_episode ont été préchargées pour vous. La bibliothèque NumPy a été importée sous le nom np.

Cet exercice fait partie du cours

<cours>Reinforcement Learning avec Gymnasium en Python</cours>

Instructions de l’exercice

À chaque itération, sélectionnez la meilleure action à entreprendre en vous basant sur la Q-table apprise Q.
Calculez la récompense moyenne par épisode appris avg_reward_per_learned_episode.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

for episode in range(10000):
    state, info = env.reset()
    terminated = False
    episode_reward = 0
    while not terminated:
        # Select the best action based on learned Q-table
        action = ____
        new_state, reward, terminated, truncated, info = env.step(action)
        state = new_state
        episode_reward += reward
    reward_per_learned_episode.append(episode_reward)
# Compute and print the average reward per learned episode
avg_reward_per_learned_episode = ____
print("Average reward per learned episode: ", avg_reward_per_learned_episode)
print("Average reward per random episode: ", ____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Reinforcement Learning avec Gymnasium en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.

Exercise 1: Fondamentaux de l’apprentissage par renforcement Exercise 2: Qu’est-ce que le Reinforcement Learning ?Exercise 3: RL vs autres sous-domaines du ML Exercise 4: Scénarios d’application du RL Exercise 5: Explorer le cadre de l’RL Exercise 6: Boucle d’interaction en RL Exercise 7: Tâches de RL épisodiques et continues Exercise 8: Calcul du retour actualisé pour des stratégies d’agent Exercise 9: Interagir avec les environnements Gymnasium Exercise 10: Configurer un environnement Mountain Car Exercise 11: Visualiser l’environnement Mountain Car Exercise 12: Interagir avec l’environnement Frozen Lake

Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.

Exercise 1: Processus de décision de Markov Exercise 2: Composants MDP d’un Frozen Lake personnalisé Exercise 3: Explorer les espaces d’états et d’actions Exercise 4: Probabilités de transition et récompenses Exercise 5: Politiques et fonctions de valeur d’état Exercise 6: Définir une politique déterministe Exercise 7: Calculer les valeurs d'état pour une politique Exercise 8: Comparer des politiques Exercise 9: Fonctions de valeur d’action Exercise 10: Calcul des Q-valeurs Exercise 11: Améliorer une politique Exercise 12: Itération de politique et itération de valeur Exercise 13: Appliquer l’itération de politique pour une politique optimale Exercise 14: Implémenter la value iteration

Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.

Exercise 1: Méthodes de Monte-Carlo Exercise 2: Génération d’épisodes pour les méthodes de Monte Carlo Exercise 3: Implémenter la méthode Monte Carlo en première visite Exercise 4: Implémenter le Monte Carlo à visites multiples Exercise 5: Apprentissage par différences temporelles Exercise 6: Implémenter la règle de mise à jour SARSA Exercise 7: Résoudre Frozen Lake 8x8 avec SARSA Exercise 8: Q-learning Exercise 9: Implémenter la règle de mise à jour de Q-learning Exercise 10: Résoudre Frozen Lake 8x8 avec Q-learning Exercise 11: Évaluer une politique sur un Frozen Lake glissant

Exercice actuel

Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.

Exercise 1: SARSA attendu Exercise 2: Règle de mise à jour Expected SARSA Exercise 3: Appliquer Expected SARSA Exercise 4: Double Q-learning Exercise 5: Mettre en œuvre la règle de mise à jour du double Q-learning Exercise 6: Appliquer le Double Q-learning Exercise 7: Équilibrer exploration et exploitation Exercise 8: Définir une fonction epsilon-greedy Exercise 9: Résoudre CliffWalking avec une stratégie epsilon-greedy Exercise 10: Résoudre CliffWalking avec une stratégie epsilon-greedy décroissante Exercise 11: Bandits à plusieurs bras Exercise 12: Créer un bandit manchot multi-bras Exercise 13: Résoudre un bandit manchot à plusieurs bras Exercise 14: Évaluer la convergence dans un bandit manchot multi-bras Exercise 15: Félicitations !