ComenzarEmpieza gratis

Bucle de interacción de RL

Como ya sabes, RL consiste en que un agente toma decisiones en un entorno para maximizar alguna noción de recompensa acumulada. El agente debe descubrir qué acciones proporcionan más recompensa a través de la interacción.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio