Çok kollu bir bandit oluşturma

Çok kollu bandit problemi, bir ajanın her birinin beklenen ödülünü bilmeden birden fazla eylem (veya "kol") arasından seçim yapmak zorunda kaldığı durumu tanımlamak için reinforcement learning'de kullanılan klasik bir örnektir. Zamanla, ajan her seçeneği keşfederek hangi kolun en yüksek ödülü verdiğini öğrenir. Bu egzersizde, çok kollu bandit problemini simüle etmek için temel yapıyı kuracaksın.

numpy kütüphanesi np olarak içe aktarılmıştır.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Egzersiz talimatları

Her bandit için gerçek altta yatan başarı oranını temsil eden rastgele olasılıklardan oluşan true_bandit_probs adlı bir dizi oluştur.
counts ve values adlı iki diziyi sıfırlarla başlat; counts, her banditin kaç kez seçildiğini takip eder, values ise her banditin tahmini kazanma olasılığını temsil eder.
Her yinelemede elde edilen ödülleri ve seçilen kolları saklamak için rewards ve selected_arms dizilerini oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

def create_multi_armed_bandit(n_bandits):
  	# Generate the true bandits probabilities
    true_bandit_probs = ____ 
    # Create arrays that store the count and value for each bandit
    counts = ____  
    values = ____  
    # Create arrays that store the rewards and selected arms each episode
    rewards = ____
    selected_arms = ____ 
    return true_bandit_probs, counts, values, rewards, selected_arms

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.

Exercise 1: Reinforcement learning’in temelleri Exercise 2: Pekiştirmeli Öğrenme nedir?Exercise 3: RL ve diğer ML alt alanları Exercise 4: RL uygulama senaryoları Exercise 5: RL çerçevesinde gezinme Exercise 6: RL etkileşim döngüsü Exercise 7: Epizodik ve sürekli RL görevleri Exercise 8: Ajan stratejileri için iskonto edilmiş getirileri hesaplama Exercise 9: Gymnasium ortamlarıyla etkileşim Exercise 10: Mountain Car ortamını kurma Exercise 11: Mountain Car Ortamını Görselleştirme Exercise 12: Frozen Lake ortamıyla etkileşim

Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.

Exercise 1: Markov Karar Süreçleri Exercise 2: Özel Frozen Lake MDP bileşenleri Exercise 3: Durum ve eylem uzaylarını keşfetme Exercise 4: Geçiş olasılıkları ve ödüller Exercise 5: Politikalar ve durum-değer fonksiyonları Exercise 6: Deterministik bir politika tanımlama Exercise 7: Bir politika için durum-değerlerini hesaplama Exercise 8: Politikaları karşılaştırma Exercise 9: Eylem-değer fonksiyonları Exercise 10: Q-değerlerini hesaplama Exercise 11: Bir politikayı iyileştirme Exercise 12: Politika yinelemesi ve değer yinelemesi Exercise 13: En iyi politikayı bulmak için policy iteration uygulama Exercise 14: Değer yinelemesini (value iteration) uygulama

RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.

Exercise 1: Monte Carlo yöntemleri Exercise 2: Monte Carlo yöntemleri için bölüm (episode) üretimi Exercise 3: First-visit Monte Carlo’yu uygulama Exercise 4: Her-ziyaret Monte Carlo'yu uygulama Exercise 5: Zamansal fark öğrenimi Exercise 6: SARSA güncelleme kuralını uygulama Exercise 7: SARSA ile 8x8 Frozen Lake çözümü Exercise 8: Q-learning Exercise 9: Q-learning güncelleme kuralını uygulama Exercise 10: Q-learning ile 8x8 Frozen Lake'i Çözme Exercise 11: Kaygan Frozen Lake üzerinde politikayı değerlendirme

Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.

Exercise 1: Beklenen SARSA Exercise 2: Expected SARSA güncelleme kuralı Exercise 3: Expected SARSA'yı uygulamak Exercise 4: Double Q-learning Exercise 5: Double Q-learning güncelleme kuralını uygulama Exercise 6: Double Q-learning uygulama Exercise 7: Keşif ve sömürüyü dengelemek Exercise 8: Epsilon-greedy fonksiyonunu tanımlama Exercise 9: Epsilon greedy stratejisiyle CliffWalking çözümü Exercise 10: Azalan epsilon-greedy stratejisiyle CliffWalking'i çözme Exercise 11: Çok kollu haydutlar Exercise 12: Çok kollu bir bandit oluşturma

Geçerli egzersiz

Exercise 13: Çok kollu haydut çözme Exercise 14: Çok kollu bir banditte yakınsamayı değerlendirme Exercise 15: Tebrikler!