IniziaInizia gratis

Implementare l'algoritmo DQN completo

È finalmente arrivato il momento! Hai completato tutti i prerequisiti: ora implementerai l'algoritmo DQN completo e lo userai per addestrare un agente di Lunar Lander. Questo significa che il tuo algoritmo userà non solo l'Experience Replay, ma anche l'Epsilon-Greediness decrescente e i Q-target fissi.

La funzione select_action() che implementa l'Epsilon Greediness decrescente è a tua disposizione, così come la funzione update_target_network() dell'esercizio precedente. Non ti resta che integrare queste funzioni nel ciclo di training del DQN e assicurarti di usare correttamente la Target Network nel calcolo della loss.

Devi mantenere un nuovo contatore di passi, total_steps, per far decadere il valore di \(\varepsilon\) nel tempo. Questa variabile è inizializzata per te con valore 0.

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Usa select_action() per implementare l'Epsilon Greediness decrescente e selezionare l'azione dell'agente; dovrai usare total_steps, il totale cumulato tra gli episodi.
  • Prima di calcolare il TD target, disattiva il tracciamento dei gradienti.
  • Dopo aver ottenuto lo stato successivo, recupera i Q-values dello stato successivo.
  • Aggiorna la target network alla fine di ogni passo.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

for episode in range(10):
    state, info = env.reset()
    done = False
    step = 0
    episode_reward = 0
    while not done:
        step += 1
        total_steps += 1
        q_values = online_network(state)
        # Select the action with epsilon greediness
        action = ____(____, ____, start=.9, end=.05, decay=1000)
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        replay_buffer.push(state, action, reward, next_state, done)        
        if len(replay_buffer) >= batch_size:
            states, actions, rewards, next_states, dones = replay_buffer.sample(64)
            q_values = online_network(states).gather(1, actions).squeeze(1)
            # Ensure gradients are not tracked
            with ____:
                # Obtain the next state Q-values
                next_q_values = ____(next_states).amax(1)
                target_q_values = rewards + gamma * next_q_values * (1-dones)
            loss = nn.MSELoss()(q_values, target_q_values)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()   
            # Update the target network weights
            ____(____, ____, tau=.005)
        state = next_state
        episode_reward += reward    
    describe_episode(episode, reward, episode_reward, step)
Modifica ed esegui il codice