ComenzarEmpieza gratis

RL interaction loop

As you know by now, RL involves an agent making decisions in an environment to maximize some notion of cumulative reward. The agent must discover which actions yield the most reward through interaction.

Este ejercicio forma parte del curso

Reinforcement Learning with Gymnasium in Python

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio