Aan de slagGa gratis aan de slag

Overgangswaarschijnlijkheden en beloningen

De Cliff Walking-omgeving heeft 48 toestanden, genummerd van 0 tot en met 47, regel voor regel, van de linkerbovenhoek (0) naar de rechterbenedenhoek (47). Je doel is om de structuur van overgangswaarschijnlijkheden en beloningen in deze setup te onderzoeken. Opvallend is dat alle beloningen, inclusief de beloning voor het bereiken van het doel, negatief zijn in deze omgeving. Deze ontwerpkeuze legt de nadruk op het minimaliseren van het aantal zetten, omdat elke stap een straf oplevert. Efficiëntie is daardoor een belangrijk aspect bij het ontwerpen van effectieve leeralgoritmen.

De gymnasium-bibliotheek is geïmporteerd als gym en de omgeving als env. Ook num_states en num_actions uit de vorige oefening zijn geïmporteerd.

Image showing the cliff walking environment.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Code bewerken en uitvoeren