ComeçarComece de graça

Loop de interação em RL

Como você já sabe, RL envolve um agente tomando decisões em um ambiente para maximizar uma noção de recompensa cumulativa. O agente precisa descobrir quais ações geram mais recompensa por meio da interação.

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício