Probabilità di transizione e ricompense
L'ambiente Cliff Walking ha 48 stati, numerati da 0 a 47, riga per riga, dall'angolo in alto a sinistra (0) a quello in basso a destra (47). Il tuo obiettivo è esplorare la struttura delle probabilità di transizione e delle ricompense in questo scenario. Nota bene: tutte le ricompense, inclusa quella per aver raggiunto l'obiettivo, sono negative in questo ambiente. Questa scelta progettuale mette l'accento sulla minimizzazione del numero di passi, perché ogni passo comporta una penalità: l'efficienza diventa quindi cruciale per progettare algoritmi di apprendimento efficaci.
La libreria gymnasium è stata importata come gym e l'ambiente come env. Anche num_states e num_actions dall'esercizio precedente sono stati importati.

Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")