Probabilidades de transición y recompensas
El entorno Cliff Walking tiene 48 estados, numerados del 0 al 47, línea por línea, desde la esquina superior izquierda (0) hasta la esquina inferior derecha (47). Tu objetivo es investigar la estructura de las probabilidades de transición y las recompensas en este escenario. Ten en cuenta que todas las recompensas, incluida la de llegar al objetivo, son negativas en este entorno. Esta decisión de diseño enfatiza minimizar el número de pasos, ya que cada paso conlleva una penalización, por lo que la eficiencia es clave para diseñar algoritmos de aprendizaje eficaces.
La biblioteca gymnasium se ha importado como gym y el entorno como env. También se han importado num_states y num_actions del ejercicio anterior.

Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")