Probabilités de transition et récompenses

L’environnement Cliff Walking comporte 48 états, numérotés de 0 à 47, ligne par ligne, du coin supérieur gauche (0) au coin inférieur droit (47). Votre objectif est d’examiner la structure des probabilités de transition et des récompenses dans ce cadre. Fait notable, toutes les récompenses, y compris celle de l’atteinte de l’objectif, sont négatives dans cet environnement. Ce choix de conception met l’accent sur la minimisation du nombre d’étapes, car chaque pas entraîne une pénalité ; l’efficacité devient donc un élément clé pour concevoir des algorithmes d’apprentissage performants.

La bibliothèque gymnasium a été importée sous le nom gym et l’environnement sous le nom env. Les variables num_states et num_actions de l’exercice précédent ont également été importées.

Image showing the cliff walking environment.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")

Modifier et exécuter le code

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Plongez dans l’univers du Reinforcement Learning (RL) en découvrant ses concepts, ses rôles et ses applications. Parcourez le cadre du RL et mettez en lumière l’interaction agent–environnement. Vous apprendrez aussi à utiliser la bibliothèque Gymnasium pour créer des environnements, visualiser les états et exécuter des actions, afin d’acquérir des bases pratiques en concepts et applications du RL.

Exercise 1: Fondamentaux de l’apprentissage par renforcement Exercise 2: Qu’est-ce que le Reinforcement Learning ?Exercise 3: RL vs autres sous-domaines du ML Exercise 4: Scénarios d’application du RL Exercise 5: Explorer le cadre de l’RL Exercise 6: Boucle d’interaction en RL Exercise 7: Tâches de RL épisodiques et continues Exercise 8: Calcul du retour actualisé pour des stratégies d’agent Exercise 9: Interagir avec les environnements Gymnasium Exercise 10: Configurer un environnement Mountain Car Exercise 11: Visualiser l’environnement Mountain Car Exercise 12: Interagir avec l’environnement Frozen Lake

Approfondissez le RL en vous concentrant sur l’apprentissage fondé sur un modèle. Démêlez la complexité des processus de décision markoviens (MDP) et comprenez leurs composants essentiels. Développez vos compétences en découvrant les politiques et les fonctions de valeur. Maîtrisez l’optimisation de politiques avec les techniques d’itération de politique et d’itération de valeur.

Exercise 1: Processus de décision de Markov Exercise 2: Composants MDP d’un Frozen Lake personnalisé Exercise 3: Explorer les espaces d’états et d’actions Exercise 4: Probabilités de transition et récompenses

Exercice en cours

Exercise 5: Politiques et fonctions de valeur d’état Exercise 6: Définir une politique déterministe Exercise 7: Calculer les valeurs d'état pour une politique Exercise 8: Comparer des politiques Exercise 9: Fonctions de valeur d’action Exercise 10: Calcul des Q-valeurs Exercise 11: Améliorer une politique Exercise 12: Itération de politique et itération de valeur Exercise 13: Appliquer l’itération de politique pour une politique optimale Exercise 14: Implémenter la value iteration

Explorez le domaine dynamique de l’apprentissage sans modèle en RL. Découvrez les méthodes de Monte Carlo et appliquez les algorithmes de prédiction Monte Carlo en première visite et en toutes visites. Passez ensuite à l’apprentissage par différence temporelle en explorant l’algorithme SARSA. Enfin, plongez dans le Q-Learning et analysez sa convergence dans des environnements difficiles.

Exercise 1: Méthodes de Monte-Carlo Exercise 2: Génération d’épisodes pour les méthodes de Monte Carlo Exercise 3: Implémenter la méthode Monte Carlo en première visite Exercise 4: Implémenter le Monte Carlo à visites multiples Exercise 5: Apprentissage par différences temporelles Exercise 6: Implémenter la règle de mise à jour SARSA Exercise 7: Résoudre Frozen Lake 8x8 avec SARSA Exercise 8: Q-learning Exercise 9: Implémenter la règle de mise à jour de Q-learning Exercise 10: Résoudre Frozen Lake 8x8 avec Q-learning Exercise 11: Évaluer une politique sur un Frozen Lake glissant

Découvrez des stratégies avancées en RL sans modèle pour améliorer les algorithmes de décision. Apprenez Expected SARSA pour des mises à jour de politique plus précises et le Double Q-learning pour réduire le biais de surestimation. Explorez le compromis exploration–exploitation et maîtrisez les stratégies epsilon-greedy et epsilon-decay pour un choix d’action optimal. Affrontez le problème du bandit manchot en appliquant des stratégies adaptées à la prise de décision sous incertitude.

Exercise 1: SARSA attendu Exercise 2: Règle de mise à jour Expected SARSA Exercise 3: Appliquer Expected SARSA Exercise 4: Double Q-learning Exercise 5: Mettre en œuvre la règle de mise à jour du double Q-learning Exercise 6: Appliquer le Double Q-learning Exercise 7: Équilibrer exploration et exploitation Exercise 8: Définir une fonction epsilon-greedy Exercise 9: Résoudre CliffWalking avec une stratégie epsilon-greedy Exercise 10: Résoudre CliffWalking avec une stratégie epsilon-greedy décroissante Exercise 11: Bandits à plusieurs bras Exercise 12: Créer un bandit manchot multi-bras Exercise 13: Résoudre un bandit manchot à plusieurs bras Exercise 14: Évaluer la convergence dans un bandit manchot multi-bras Exercise 15: Félicitations !