Durum ve eylem uzaylarını keşfetme

Cliff Walking ortamında, bir ajan uçurumdan düşmeden başlangıçtan hedefe doğru bir ızgara dünyasını geçer. Oyuncu uçurum karesine hareket ederse başlangıç konumuna döner. Oyuncu hedefe ulaşana kadar hamle yapar ve hedefe ulaşıldığında bölüm (episode) sona erer. Görevin, bu ortamın durum ve eylem uzaylarını keşfetmektir.

Image showing an animation for the cliff walking environment.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Egzersiz talimatları

Ortam kimliği CliffWalking olan Cliff Walking için bir ortam örneği oluştur.
Eylem uzayının boyutunu hesaplayıp num_actions içinde sakla.
Durum uzayının boyutunu hesaplayıp num_states içinde sakla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create the Cliff Walking environment
env = ____

# Compute the size of the action space
num_actions = ____

# Compute the size of the state space
num_states = ____

print("Number of actions:", num_actions)
print("Number of states:", num_states)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.

Exercise 1: Reinforcement learning’in temelleri Exercise 2: Pekiştirmeli Öğrenme nedir?Exercise 3: RL ve diğer ML alt alanları Exercise 4: RL uygulama senaryoları Exercise 5: RL çerçevesinde gezinme Exercise 6: RL etkileşim döngüsü Exercise 7: Epizodik ve sürekli RL görevleri Exercise 8: Ajan stratejileri için iskonto edilmiş getirileri hesaplama Exercise 9: Gymnasium ortamlarıyla etkileşim Exercise 10: Mountain Car ortamını kurma Exercise 11: Mountain Car Ortamını Görselleştirme Exercise 12: Frozen Lake ortamıyla etkileşim

Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.

Exercise 1: Markov Karar Süreçleri Exercise 2: Özel Frozen Lake MDP bileşenleri Exercise 3: Durum ve eylem uzaylarını keşfetme

Geçerli egzersiz

Exercise 4: Geçiş olasılıkları ve ödüller Exercise 5: Politikalar ve durum-değer fonksiyonları Exercise 6: Deterministik bir politika tanımlama Exercise 7: Bir politika için durum-değerlerini hesaplama Exercise 8: Politikaları karşılaştırma Exercise 9: Eylem-değer fonksiyonları Exercise 10: Q-değerlerini hesaplama Exercise 11: Bir politikayı iyileştirme Exercise 12: Politika yinelemesi ve değer yinelemesi Exercise 13: En iyi politikayı bulmak için policy iteration uygulama Exercise 14: Değer yinelemesini (value iteration) uygulama

RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.

Exercise 1: Monte Carlo yöntemleri Exercise 2: Monte Carlo yöntemleri için bölüm (episode) üretimi Exercise 3: First-visit Monte Carlo’yu uygulama Exercise 4: Her-ziyaret Monte Carlo'yu uygulama Exercise 5: Zamansal fark öğrenimi Exercise 6: SARSA güncelleme kuralını uygulama Exercise 7: SARSA ile 8x8 Frozen Lake çözümü Exercise 8: Q-learning Exercise 9: Q-learning güncelleme kuralını uygulama Exercise 10: Q-learning ile 8x8 Frozen Lake'i Çözme Exercise 11: Kaygan Frozen Lake üzerinde politikayı değerlendirme

Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.

Exercise 1: Beklenen SARSA Exercise 2: Expected SARSA güncelleme kuralı Exercise 3: Expected SARSA'yı uygulamak Exercise 4: Double Q-learning Exercise 5: Double Q-learning güncelleme kuralını uygulama Exercise 6: Double Q-learning uygulama Exercise 7: Keşif ve sömürüyü dengelemek Exercise 8: Epsilon-greedy fonksiyonunu tanımlama Exercise 9: Epsilon greedy stratejisiyle CliffWalking çözümü Exercise 10: Azalan epsilon-greedy stratejisiyle CliffWalking'i çözme Exercise 11: Çok kollu haydutlar Exercise 12: Çok kollu bir bandit oluşturma Exercise 13: Çok kollu haydut çözme Exercise 14: Çok kollu bir banditte yakınsamayı değerlendirme Exercise 15: Tebrikler!