SARSA ile 8x8 Frozen Lake çözümü
Bu egzersizde, daha önce yazdığın update_q_table() fonksiyonunu da kullanarak SARSA algoritmasını uygulayacak ve 8x8 Frozen Lake ortamı için en iyi politikayı öğreneceksin. Bu ortam, klasik 4x4 sürümüyle aynıdır; tek fark daha büyük olmasıdır. Ortamdan alınan ödüllere göre ajanın politikasını yinelemeli olarak iyileştirmek için SARSA algoritmasını kullanacaksın.
Senin için bir Q-tablosu Q başlatıldı ve önceki egzersizdeki update_q_table() fonksiyonu önceden yüklendi.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Eğitim sürecindeki her bölüm (episode) için seçilen
action'ı yürüt. next_action'ı rastgele seç.- Verilen
stateveactioniçin Q-tablosunu güncelle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())