Implementare l'algoritmo DQN completo
È finalmente arrivato il momento! Hai completato tutti i prerequisiti: ora implementerai l'algoritmo DQN completo e lo userai per addestrare un agente di Lunar Lander. Questo significa che il tuo algoritmo userà non solo l'Experience Replay, ma anche l'Epsilon-Greediness decrescente e i Q-target fissi.
La funzione select_action() che implementa l'Epsilon Greediness decrescente è a tua disposizione, così come la funzione update_target_network() dell'esercizio precedente. Non ti resta che integrare queste funzioni nel ciclo di training del DQN e assicurarti di usare correttamente la Target Network nel calcolo della loss.
Devi mantenere un nuovo contatore di passi, total_steps, per far decadere il valore di \(\varepsilon\) nel tempo. Questa variabile è inizializzata per te con valore 0.
Questo esercizio fa parte del corso
Deep Reinforcement Learning in Python
Istruzioni dell'esercizio
- Usa
select_action()per implementare l'Epsilon Greediness decrescente e selezionare l'azione dell'agente; dovrai usaretotal_steps, il totale cumulato tra gli episodi. - Prima di calcolare il TD target, disattiva il tracciamento dei gradienti.
- Dopo aver ottenuto lo stato successivo, recupera i Q-values dello stato successivo.
- Aggiorna la target network alla fine di ogni passo.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
for episode in range(10):
state, info = env.reset()
done = False
step = 0
episode_reward = 0
while not done:
step += 1
total_steps += 1
q_values = online_network(state)
# Select the action with epsilon greediness
action = ____(____, ____, start=.9, end=.05, decay=1000)
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
replay_buffer.push(state, action, reward, next_state, done)
if len(replay_buffer) >= batch_size:
states, actions, rewards, next_states, dones = replay_buffer.sample(64)
q_values = online_network(states).gather(1, actions).squeeze(1)
# Ensure gradients are not tracked
with ____:
# Obtain the next state Q-values
next_q_values = ____(next_states).amax(1)
target_q_values = rewards + gamma * next_q_values * (1-dones)
loss = nn.MSELoss()(q_values, target_q_values)
optimizer.zero_grad()
loss.backward()
optimizer.step()
# Update the target network weights
____(____, ____, tau=.005)
state = next_state
episode_reward += reward
describe_episode(episode, reward, episode_reward, step)