or
Este ejercicio forma parte del curso
Sumérgete en el mundo del Reinforcement Learning (RL) explorando sus conceptos, roles y aplicaciones fundamentales. Recorre el marco de RL, descubriendo la interacción agente-entorno. También aprenderás a usar la biblioteca Gymnasium para crear entornos, visualizar estados y ejecutar acciones, obteniendo así una base práctica en conceptos y aplicaciones de RL.
Profundiza en el mundo del RL centrándote en el aprendizaje basado en modelos. Desentraña la complejidad de los Procesos de Decisión de Markov (MDP) y comprende sus componentes esenciales. Amplía tus habilidades aprendiendo sobre políticas y funciones de valor. Domina la optimización de políticas con las técnicas de iteración de políticas e iteración de valores.
Emprende un recorrido por el dinámico ámbito del aprendizaje libre de modelo en RL. Descubre los métodos Monte Carlo fundamentales y aplica los algoritmos de predicción Monte Carlo de primera visita y de todas las visitas. Da el salto al aprendizaje por Diferencia Temporal, explorando el algoritmo SARSA. Por último, adéntrate en Q-Learning y analiza su convergencia en entornos desafiantes.
Ejercicio actual
Profundiza en estrategias avanzadas en RL libre de modelo, centradas en mejorar los algoritmos de toma de decisiones. Aprende Expected SARSA para actualizar políticas con mayor precisión y Double Q-learning para mitigar el sesgo de sobreestimación. Explora la compensación exploración-explotación, dominando las estrategias epsilon-greedy y epsilon-decay para seleccionar acciones de forma óptima. Afronta el problema del bandido de varios brazos aplicando estrategias para resolver decisiones bajo incertidumbre.