Probabilités de transition et récompenses
L’environnement Cliff Walking comporte 48 états, numérotés de 0 à 47, ligne par ligne, du coin supérieur gauche (0) au coin inférieur droit (47). Votre objectif est d’examiner la structure des probabilités de transition et des récompenses dans ce cadre. Fait notable, toutes les récompenses, y compris celle de l’atteinte de l’objectif, sont négatives dans cet environnement. Ce choix de conception met l’accent sur la minimisation du nombre d’étapes, car chaque pas entraîne une pénalité ; l’efficacité devient donc un élément clé pour concevoir des algorithmes d’apprentissage performants.
La bibliothèque gymnasium a été importée sous le nom gym et l’environnement sous le nom env. Les variables num_states et num_actions de l’exercice précédent ont également été importées.

Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")