Comparar políticas

Se te proporcionan dos funciones de valor de estado (value_function_1 y value_function_2) que corresponden a dos políticas diferentes en el entorno MyGridWorld. Tu tarea es comparar estas funciones de valor de estado estado por estado para determinar qué política es más efectiva.

La variable num_states está disponible para que la utilices.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Instrucciones del ejercicio

Crea una lista one_is_better de valores booleanos, donde cada elemento compruebe si el valor del estado en value_function_1 es mayor o igual que el valor del estado en value_function_2.
Crea una lista two_is_better de valores booleanos, donde cada elemento compruebe si el valor del estado en value_function_2 es mayor o igual que el valor del estado en value_function_1.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")

Editar y ejecutar código

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

Sumérgete en el mundo del Reinforcement Learning (RL) explorando sus conceptos, roles y aplicaciones fundamentales. Recorre el marco de RL, descubriendo la interacción agente-entorno. También aprenderás a usar la biblioteca Gymnasium para crear entornos, visualizar estados y ejecutar acciones, obteniendo así una base práctica en conceptos y aplicaciones de RL.

Exercise 1: Fundamentos del aprendizaje por refuerzo Exercise 2: ¿Qué es Reinforcement Learning?Exercise 3: RL vs. otros subdominios de ML Exercise 4: Escenarios para aplicar RL Exercise 5: Navegando por el marco de RL Exercise 6: Bucle de interacción de RL Exercise 7: Tareas de RL episódicas y continuas Exercise 8: Calcular retornos descontados para estrategias del agente Exercise 9: Interactuar con entornos de Gymnasium Exercise 10: Configurar un entorno de Mountain Car Exercise 11: Visualización del entorno Mountain Car Exercise 12: Interactúa con el entorno Frozen Lake

Profundiza en el mundo del RL centrándote en el aprendizaje basado en modelos. Desentraña la complejidad de los Procesos de Decisión de Markov (MDP) y comprende sus componentes esenciales. Amplía tus habilidades aprendiendo sobre políticas y funciones de valor. Domina la optimización de políticas con las técnicas de iteración de políticas e iteración de valores.

Exercise 1: Procesos de decisión de Markov Exercise 2: Componentes personalizados del MDP de Frozen Lake Exercise 3: Explorar los espacios de estados y acciones Exercise 4: Probabilidades de transición y recompensas Exercise 5: Políticas y funciones de valor de estado Exercise 6: Definir una política determinista Exercise 7: Calcular valores de estado para una política Exercise 8: Comparar políticas

Ejercicio actual

Exercise 9: Funciones valor-acción Exercise 10: Cálculo de Q-values Exercise 11: Mejorar una política Exercise 12: Iteración de políticas e iteración de valores Exercise 13: Aplicar iteración de políticas para obtener la política óptima Exercise 14: Implementación de value iteration

Emprende un recorrido por el dinámico ámbito del aprendizaje libre de modelo en RL. Descubre los métodos Monte Carlo fundamentales y aplica los algoritmos de predicción Monte Carlo de primera visita y de todas las visitas. Da el salto al aprendizaje por Diferencia Temporal, explorando el algoritmo SARSA. Por último, adéntrate en Q-Learning y analiza su convergencia en entornos desafiantes.

Exercise 1: Métodos Monte Carlo Exercise 2: Generación de episodios para métodos Monte Carlo Exercise 3: Implementar Monte Carlo de primera visita Exercise 4: Implementación de Monte Carlo de todas las visitas Exercise 5: Aprendizaje por diferencia temporal Exercise 6: Implementar la regla de actualización SARSA Exercise 7: Resolver Frozen Lake 8x8 con SARSA Exercise 8: Q-learning Exercise 9: Implementar la regla de actualización de Q-learning Exercise 10: Resolver Frozen Lake 8x8 con Q-learning Exercise 11: Evaluar la política en un Frozen Lake resbaladizo

Profundiza en estrategias avanzadas en RL libre de modelo, centradas en mejorar los algoritmos de toma de decisiones. Aprende Expected SARSA para actualizar políticas con mayor precisión y Double Q-learning para mitigar el sesgo de sobreestimación. Explora la compensación exploración-explotación, dominando las estrategias epsilon-greedy y epsilon-decay para seleccionar acciones de forma óptima. Afronta el problema del bandido de varios brazos aplicando estrategias para resolver decisiones bajo incertidumbre.

Exercise 1: SARSA esperado Exercise 2: Regla de actualización de Expected SARSA Exercise 3: Aplicar Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementar la regla de actualización de Double Q-learning Exercise 6: Aplicar Double Q-learning Exercise 7: Equilibrar exploración y explotación Exercise 8: Definir la función epsilon-greedy Exercise 9: Resolver CliffWalking con la estrategia epsilon-greedy Exercise 10: Resolver CliffWalking con una estrategia epsilon-greedy decreciente Exercise 11: Bandidos de varios brazos Exercise 12: Creando un multi-armed bandit Exercise 13: Resolver un bandido de varios brazos Exercise 14: Evaluar la convergencia en un problema de multi-armed bandit Exercise 15: ¡Enhorabuena!