IniziaInizia gratis

Probabilità di transizione e ricompense

L'ambiente Cliff Walking ha 48 stati, numerati da 0 a 47, riga per riga, dall'angolo in alto a sinistra (0) a quello in basso a destra (47). Il tuo obiettivo è esplorare la struttura delle probabilità di transizione e delle ricompense in questo scenario. Nota bene: tutte le ricompense, inclusa quella per aver raggiunto l'obiettivo, sono negative in questo ambiente. Questa scelta progettuale mette l'accento sulla minimizzazione del numero di passi, perché ogni passo comporta una penalità: l'efficienza diventa quindi cruciale per progettare algoritmi di apprendimento efficaci.

La libreria gymnasium è stata importata come gym e l'ambiente come env. Anche num_states e num_actions dall'esercizio precedente sono stati importati.

Image showing the cliff walking environment.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Modifica ed esegui il codice