Q-learning ile 8x8 Frozen Lake'i Çözme
Bu egzersizde, 8x8 Frozen Lake ortamında gezinmek için en iyi politikayı öğrenmek üzere Q-learning algoritmasını uygulayacaksın; bu kez "kaygan" koşul etkin. Bu zorluk, geçişleri stokastik hâle getirir; ajanın hareketini öngörülemez yaparak gerçek dünyadaki senaryolara daha yakın bir durum oluşturur.
Bir Q-tablosu Q başlatıldı ve senin için yüklendi; önceki egzersizden update_q_table() fonksiyonu ve her bölümde biriken toplam ödülü tutacak boş bir liste rewards_per_episode ile birlikte geliyor.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Her bölüm için seçilen eylemi yürüt ve ödülü ile bir sonraki durumu gözlemle.
- Q-tablosunu güncelle.
total_rewarddeğerinirewards_per_episodelistesine ekle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
for episode in range(10000):
state, info = env.reset()
total_reward = 0
terminated = False
while not terminated:
action = env.action_space.sample()
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Update the Q-table
____
state = next_state
total_reward += reward
# Append the total reward to the rewards list
rewards_per_episode.____(____)
print("Average reward per random episode: ", np.mean(rewards_per_episode))