Comece agoraComece grátis

Loop de interação em RL

Como você já sabe, RL envolve um agente tomando decisões em um ambiente para maximizar uma noção de recompensa cumulativa. O agente precisa descobrir quais ações geram mais recompensa por meio da interação.

Este exercicio faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio