SARSA ile 8x8 Frozen Lake çözümü

Bu egzersizde, daha önce yazdığın update_q_table() fonksiyonunu da kullanarak SARSA algoritmasını uygulayacak ve 8x8 Frozen Lake ortamı için en iyi politikayı öğreneceksin. Bu ortam, klasik 4x4 sürümüyle aynıdır; tek fark daha büyük olmasıdır. Ortamdan alınan ödüllere göre ajanın politikasını yinelemeli olarak iyileştirmek için SARSA algoritmasını kullanacaksın.

Senin için bir Q-tablosu Q başlatıldı ve önceki egzersizdeki update_q_table() fonksiyonu önceden yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Egzersiz talimatları

Eğitim sürecindeki her bölüm (episode) için seçilen action'ı yürüt.
next_action'ı rastgele seç.
Verilen state ve action için Q-tablosunu güncelle.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.

Exercise 1: Reinforcement learning’in temelleri Exercise 2: Pekiştirmeli Öğrenme nedir?Exercise 3: RL ve diğer ML alt alanları Exercise 4: RL uygulama senaryoları Exercise 5: RL çerçevesinde gezinme Exercise 6: RL etkileşim döngüsü Exercise 7: Epizodik ve sürekli RL görevleri Exercise 8: Ajan stratejileri için iskonto edilmiş getirileri hesaplama Exercise 9: Gymnasium ortamlarıyla etkileşim Exercise 10: Mountain Car ortamını kurma Exercise 11: Mountain Car Ortamını Görselleştirme Exercise 12: Frozen Lake ortamıyla etkileşim

Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.

Exercise 1: Markov Karar Süreçleri Exercise 2: Özel Frozen Lake MDP bileşenleri Exercise 3: Durum ve eylem uzaylarını keşfetme Exercise 4: Geçiş olasılıkları ve ödüller Exercise 5: Politikalar ve durum-değer fonksiyonları Exercise 6: Deterministik bir politika tanımlama Exercise 7: Bir politika için durum-değerlerini hesaplama Exercise 8: Politikaları karşılaştırma Exercise 9: Eylem-değer fonksiyonları Exercise 10: Q-değerlerini hesaplama Exercise 11: Bir politikayı iyileştirme Exercise 12: Politika yinelemesi ve değer yinelemesi Exercise 13: En iyi politikayı bulmak için policy iteration uygulama Exercise 14: Değer yinelemesini (value iteration) uygulama

RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.

Exercise 1: Monte Carlo yöntemleri Exercise 2: Monte Carlo yöntemleri için bölüm (episode) üretimi Exercise 3: First-visit Monte Carlo’yu uygulama Exercise 4: Her-ziyaret Monte Carlo'yu uygulama Exercise 5: Zamansal fark öğrenimi Exercise 6: SARSA güncelleme kuralını uygulama Exercise 7: SARSA ile 8x8 Frozen Lake çözümü

Geçerli egzersiz

Exercise 8: Q-learning Exercise 9: Q-learning güncelleme kuralını uygulama Exercise 10: Q-learning ile 8x8 Frozen Lake'i Çözme Exercise 11: Kaygan Frozen Lake üzerinde politikayı değerlendirme

Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.

Exercise 1: Beklenen SARSA Exercise 2: Expected SARSA güncelleme kuralı Exercise 3: Expected SARSA'yı uygulamak Exercise 4: Double Q-learning Exercise 5: Double Q-learning güncelleme kuralını uygulama Exercise 6: Double Q-learning uygulama Exercise 7: Keşif ve sömürüyü dengelemek Exercise 8: Epsilon-greedy fonksiyonunu tanımlama Exercise 9: Epsilon greedy stratejisiyle CliffWalking çözümü Exercise 10: Azalan epsilon-greedy stratejisiyle CliffWalking'i çözme Exercise 11: Çok kollu haydutlar Exercise 12: Çok kollu bir bandit oluşturma Exercise 13: Çok kollu haydut çözme Exercise 14: Çok kollu bir banditte yakınsamayı değerlendirme Exercise 15: Tebrikler!