Monte Carlo yöntemleri için bölüm (episode) üretimi
Değer fonksiyonunu elde etmek için Monte Carlo yöntemleri bölüm (episode) üretimi gerektirir. Bu yüzden, bir bölüm sona erene kadar eylemleri rastgele seçerek bölümler üreten bir fonksiyon uygulayacaksın. Sonraki egzersizlerde, senin için önceden yüklenmiş özel ortam env üzerinde Monte Carlo yöntemlerini uygulamak için bu fonksiyonu çağıracaksın.
render() fonksiyonu senin için önceden yüklendi.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Ortamı
seedolarak 42 kullanarak sıfırla. - Bölüm döngüsünde, her yinelemede rastgele bir
actionseç. - Bir yineleme bittiğinde,
episodeverisini(state, action, reward)üçlüsünü ekleyerek güncelle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())