ComeçarComece de graça

Probabilidades de transição e recompensas

O ambiente Cliff Walking tem 48 estados, numerados de 0 a 47, linha por linha, do canto superior esquerdo (0) ao canto inferior direito (47). Seu objetivo é investigar a estrutura das probabilidades de transição e das recompensas nesse cenário. Vale notar que todas as recompensas, incluindo a de alcançar o objetivo, são negativas neste ambiente. Essa escolha de design enfatiza a minimização do número de passos, já que cada passo gera uma penalidade, tornando a eficiência um ponto-chave para projetar algoritmos de aprendizado eficazes.

A biblioteca gymnasium foi importada como gym e o ambiente como env. Além disso, num_states e num_actions do exercício anterior foram importados.

Image showing the cliff walking environment.

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Editar e executar o código