Bucle de interacción de RL
Como ya sabes, RL consiste en que un agente toma decisiones en un entorno para maximizar alguna noción de recompensa acumulada. El agente debe descubrir qué acciones proporcionan más recompensa a través de la interacción.
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio