A2C algoritmasını eğitme
A2C algoritmasını kullanarak Lunar Lander'ımızı eğitme zamanı! Tüm yapı taşların hazır; şimdi hepsini bir araya getirme vakti.
Actor ve critic ağları actor ve critic olarak, onların iyileştiricileri de actor_optimizer ve critic_optimizer olarak oluşturuldu.
REINFORCE için yazdığın select_action() fonksiyonu ve önceki egzersizdeki calculate_losses() fonksiyonu da burada kullanımına hazır.
Bu egzersiz
Python ile Deep Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Verilen durumla actor'ün eylemi seçmesini sağla.
- Hem actor hem de critic için kayıpları hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
if done:
break
# Select the action
____
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
episode_reward += reward
# Calculate the losses
____, ____ = ____(
critic, action_log_prob,
reward, state, next_state, done)
actor_optimizer.zero_grad()
actor_loss.backward()
actor_optimizer.step()
critic_optimizer.zero_grad()
critic_loss.backward()
critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)