BaşlayınÜcretsiz Başlayın

Monte Carlo yöntemleri için bölüm (episode) üretimi

Değer fonksiyonunu elde etmek için Monte Carlo yöntemleri bölüm (episode) üretimi gerektirir. Bu yüzden, bir bölüm sona erene kadar eylemleri rastgele seçerek bölümler üreten bir fonksiyon uygulayacaksın. Sonraki egzersizlerde, senin için önceden yüklenmiş özel ortam env üzerinde Monte Carlo yöntemlerini uygulamak için bu fonksiyonu çağıracaksın.

render() fonksiyonu senin için önceden yüklendi.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Ortamı seed olarak 42 kullanarak sıfırla.
  • Bölüm döngüsünde, her yinelemede rastgele bir action seç.
  • Bir yineleme bittiğinde, episode verisini (state, action, reward) üçlüsünü ekleyerek güncelle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Kodu Düzenle ve Çalıştır