Probabilidades de transição e recompensas
O ambiente Cliff Walking tem 48 estados, numerados de 0 a 47, linha por linha, do canto superior esquerdo (0) ao canto inferior direito (47). Seu objetivo é investigar a estrutura das probabilidades de transição e das recompensas nesse cenário. Vale notar que todas as recompensas, incluindo a de alcançar o objetivo, são negativas neste ambiente. Essa escolha de design enfatiza a minimização do número de passos, já que cada passo gera uma penalidade, tornando a eficiência um ponto-chave para projetar algoritmos de aprendizado eficazes.
A biblioteca gymnasium foi importada como gym e o ambiente como env. Além disso, num_states e num_actions do exercício anterior foram importados.

Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")