BaşlayınÜcretsiz Başlayın

Q-learning ile 8x8 Frozen Lake'i Çözme

Bu egzersizde, 8x8 Frozen Lake ortamında gezinmek için en iyi politikayı öğrenmek üzere Q-learning algoritmasını uygulayacaksın; bu kez "kaygan" koşul etkin. Bu zorluk, geçişleri stokastik hâle getirir; ajanın hareketini öngörülemez yaparak gerçek dünyadaki senaryolara daha yakın bir durum oluşturur.

Bir Q-tablosu Q başlatıldı ve senin için yüklendi; önceki egzersizden update_q_table() fonksiyonu ve her bölümde biriken toplam ödülü tutacak boş bir liste rewards_per_episode ile birlikte geliyor.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her bölüm için seçilen eylemi yürüt ve ödülü ile bir sonraki durumu gözlemle.
  • Q-tablosunu güncelle.
  • total_reward değerini rewards_per_episode listesine ekle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

for episode in range(10000):
    state, info = env.reset()
    total_reward = 0
    terminated = False
    while not terminated:
        action = env.action_space.sample()
        # Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Update the Q-table
        ____
        state = next_state
        total_reward += reward
    # Append the total reward to the rewards list    
    rewards_per_episode.____(____)
print("Average reward per random episode: ", np.mean(rewards_per_episode))
Kodu Düzenle ve Çalıştır