Verkennen van toestand- en actieruimtes
De Cliff Walking-omgeving laat een agent een roosterwereld oversteken van start naar doel, terwijl hij probeert te voorkomen dat hij van een klif valt. Als de speler naar een klifvak beweegt, gaat hij terug naar de startlocatie. De speler doet zetten totdat het doel is bereikt; dan eindigt de episode. Jouw taak is om de toestand- en actieruimtes van deze omgeving te verkennen.

Deze oefening maakt deel uit van de cursus
Reinforcement Learning met Gymnasium in Python
Oefeninstructies
- Maak een instantie van de Cliff Walking-omgeving met de omgeving-ID
CliffWalking. - Bepaal de grootte van de actieruimte en sla deze op in
num_actions. - Bepaal de grootte van de toestandsruimte en sla deze op in
num_states.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the Cliff Walking environment
env = ____
# Compute the size of the action space
num_actions = ____
# Compute the size of the state space
num_states = ____
print("Number of actions:", num_actions)
print("Number of states:", num_states)