Loop de interação em RL
Como você já sabe, RL envolve um agente tomando decisões em um ambiente para maximizar uma noção de recompensa cumulativa. O agente precisa descobrir quais ações geram mais recompensa por meio da interação.
Este exercicio faz parte do curso
Reinforcement Learning com Gymnasium em Python
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio