A2C con actualizaciones por lotes

Hasta ahora, en este curso has utilizado variaciones en torno al mismo bucle de entrenamiento del núcleo DRL. En la práctica, hay varias formas de ampliar esta estructura, por ejemplo, para dar cabida a las actualizaciones por lotes.

Ahora volverás a revisar el bucle de entrenamiento A2C en el entorno del Lunar Lander, pero en lugar de actualizar las redes en cada paso, esperarás a que hayan transcurrido 10 pasos antes de ejecutar el paso de descenso gradiente. Al promediar las pérdidas en 10 pasos, te beneficiarás de actualizaciones algo más estables.

Este ejercicio forma parte del curso

Aprendizaje profundo por refuerzo en Python

Instrucciones del ejercicio

Añade las pérdidas de cada paso a los tensores de pérdidas del lote actual.
Calcula las pérdidas del lote.
Reinicializa los tensores de pérdidas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

actor_losses = torch.tensor([])
critic_losses = torch.tensor([])
for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        action, action_log_prob = select_action(actor, state)                
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        actor_loss, critic_loss = calculate_losses(
            critic, action_log_prob, 
            reward, state, next_state, done)
        # Append to the loss tensors
        actor_losses = torch.cat((____, ____))
        critic_losses = torch.cat((____, ____))
        if len(actor_losses) >= 10:
            # Calculate the batch losses
            actor_loss_batch = actor_losses.____
            critic_loss_batch = critic_losses.____
            actor_optimizer.zero_grad(); actor_loss_batch.backward(); actor_optimizer.step()
            critic_optimizer.zero_grad(); critic_loss_batch.backward(); critic_optimizer.step()
            # Reinitialize the loss tensors
            actor_losses = ____
            critic_losses = ____
        state = next_state
    describe_episode(episode, reward, episode_reward, step)

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje profundo por refuerzo en Python

AvanzadoNivel de habilidad

4.8+

Comienza el curso gratis

Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.

Exercise 1: Introducción al aprendizaje profundo por refuerzo Exercise 2: Entorno y configuración de la red neuronal Exercise 3: DRL bucle de entrenamiento Exercise 4: Introducción al aprendizaje profundo Q Exercise 5: Aprendizaje profundo y DQN Exercise 6: La arquitectura Q-Network Exercise 7: Instanciar la red Q Exercise 8: El algoritmo barebone DQN Exercise 9: Barebone DQN selección de acciones Exercise 10: Barebone DQN función de pérdida Exercise 11: Entrenar el barebone DQN

Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.

Exercise 1: DQN con repetición de experiencia Exercise 2: La cola doble Exercise 3: Búfer de repetición de experiencia Exercise 4: DQN con repetición de experiencia Exercise 5: El algoritmo completo de DQN Exercise 6: Epsilon-greediness Exercise 7: Objetivos Q fijos Exercise 8: Aplicación del algoritmo completo DQN Exercise 9: Doble DQN Exercise 10: Red en línea y red de destino en DDQN Exercise 11: Entrenamiento del doble DQN Exercise 12: Repetición priorizada de la experiencia Exercise 13: Buffer de repetición de experiencia priorizada Exercise 14: Muestreo del búfer PER Exercise 15: DQN con repetición priorizada de experiencias

Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.

Exercise 1: Introducción al gradiente político Exercise 2: La arquitectura de la red política Exercise 3: Trabajar con distribuciones discretas Exercise 4: Gradiente político y REINFORCE Exercise 5: Selección de acciones en REINFORCE Exercise 6: Entrenamiento del algoritmo REINFORCE Exercise 7: Ventaja Actor Crítico Exercise 8: Red de críticos Exercise 9: Cálculo de las pérdidas del Actor Crítico Exercise 10: Entrenamiento del algoritmo A2C

Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

Exercise 1: Optimización de la política proximal Exercise 2: La relación de probabilidad recortada Exercise 3: La función objetivo sustitutiva recortada Exercise 4: Bonificación por entropía y PPO Exercise 5: Parque infantil Entropía Exercise 6: Entrenamiento del algoritmo PPO Exercise 7: Actualizaciones por lotes en gradiente de política Exercise 8: Minilotes y DRL Exercise 9: A2C con actualizaciones por lotes

Ejercicio actual

Exercise 10: Optimización de hiperparámetros con Optuna Exercise 11: ¿Hiperparámetro o no?Exercise 12: Práctica con Optuna Exercise 13: ¡Enhorabuena!