Loop de interação em RL
Como você já sabe, RL envolve um agente tomando decisões em um ambiente para maximizar uma noção de recompensa cumulativa. O agente precisa descobrir quais ações geram mais recompensa por meio da interação.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício