BaşlayınÜcretsiz Başlayın

A2C algoritmasını eğitme

A2C algoritmasını kullanarak Lunar Lander'ımızı eğitme zamanı! Tüm yapı taşların hazır; şimdi hepsini bir araya getirme vakti.

Actor ve critic ağları actor ve critic olarak, onların iyileştiricileri de actor_optimizer ve critic_optimizer olarak oluşturuldu.

REINFORCE için yazdığın select_action() fonksiyonu ve önceki egzersizdeki calculate_losses() fonksiyonu da burada kullanımına hazır.

Bu egzersiz

Python ile Deep Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Verilen durumla actor'ün eylemi seçmesini sağla.
  • Hem actor hem de critic için kayıpları hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        if done:
            break
        # Select the action
        ____
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        # Calculate the losses
        ____, ____ = ____(
            critic, action_log_prob, 
            reward, state, next_state, done)        
        actor_optimizer.zero_grad()
        actor_loss.backward()
        actor_optimizer.step()
        critic_optimizer.zero_grad()
        critic_loss.backward()
        critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Kodu Düzenle ve Çalıştır