Double DQN'i eğitmek
Şimdi DQN kodunu değiştirerek double DQN'i uygulayacaksın.
Double DQN, DQN algoritmasında yalnızca küçük bir ayar gerektirir; ancak Q-değerlerinin aşırı tahmin edilmesi sorununu büyük ölçüde azaltır ve çoğu zaman DQN'den daha iyi performans gösterir.
Bu egzersiz
Python ile Deep Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Q-hedefi hesaplaması için sonraki eylemleri
online_network()kullanarak hesapla; doğru eylemi ve şekli elde ettiğinden emin ol. - Bu eylemler için Q-değerlerini
target_network()ile tahmin et; yine doğru değerleri ve şekli elde ettiğinden emin ol.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
for episode in range(10):
state, info = env.reset()
done = False
step = 0
episode_reward = 0
while not done:
step += 1
total_steps += 1
q_values = online_network(state)
action = select_action(q_values, total_steps, start=.9, end=.05, decay=1000)
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
replay_buffer.push(state, action, reward, next_state, done)
if len(replay_buffer) >= batch_size:
states, actions, rewards, next_states, dones = replay_buffer.sample(64)
q_values = online_network(states).gather(1, actions).squeeze(1)
with torch.no_grad():
# Obtain next actions for Q-target calculation
next_actions = ____.____.____
# Estimate next Q-values from these actions
next_q_values = ____.____.____
target_q_values = rewards + gamma * next_q_values * (1-dones)
loss = nn.MSELoss()(q_values, target_q_values)
optimizer.zero_grad()
loss.backward()
optimizer.step()
update_target_network(target_network, online_network, tau=.005)
state = next_state
episode_reward += reward
describe_episode(episode, reward, episode_reward, step)