BaşlayınÜcretsiz Başlayın

SARSA ile 8x8 Frozen Lake çözümü

Bu egzersizde, daha önce yazdığın update_q_table() fonksiyonunu da kullanarak SARSA algoritmasını uygulayacak ve 8x8 Frozen Lake ortamı için en iyi politikayı öğreneceksin. Bu ortam, klasik 4x4 sürümüyle aynıdır; tek fark daha büyük olmasıdır. Ortamdan alınan ödüllere göre ajanın politikasını yinelemeli olarak iyileştirmek için SARSA algoritmasını kullanacaksın.

Senin için bir Q-tablosu Q başlatıldı ve önceki egzersizdeki update_q_table() fonksiyonu önceden yüklendi.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Eğitim sürecindeki her bölüm (episode) için seçilen action'ı yürüt.
  • next_action'ı rastgele seç.
  • Verilen state ve action için Q-tablosunu güncelle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Kodu Düzenle ve Çalıştır