ComenzarEmpieza gratis

Probabilidades de transición y recompensas

El entorno Cliff Walking tiene 48 estados, numerados del 0 al 47, línea por línea, desde la esquina superior izquierda (0) hasta la esquina inferior derecha (47). Tu objetivo es investigar la estructura de las probabilidades de transición y las recompensas en este escenario. Ten en cuenta que todas las recompensas, incluida la de llegar al objetivo, son negativas en este entorno. Esta decisión de diseño enfatiza minimizar el número de pasos, ya que cada paso conlleva una penalización, por lo que la eficiencia es clave para diseñar algoritmos de aprendizaje eficaces.

La biblioteca gymnasium se ha importado como gym y el entorno como env. También se han importado num_states y num_actions del ejercicio anterior.

Image showing the cliff walking environment.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Editar y ejecutar código