Çok kollu haydut çözme

Bu egzersizde, 10 kollu bir haydut problemini çözmek için epsilon-greedy stratejisini uygulayacaksın; epsilon değeri zamanla azalarak keşiften faydalanmaya geçişi sağlar.

epsilon, min_epsilon ve epsilon_decay senin için önceden tanımlandı. epsilon_greedy() işlevi de içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Egzersiz talimatları

create_multi_armed_bandit() işlevini kullanarak 10 kollu bir haydut problemini başlat; bu işlev true_bandit_probs, counts, values, rewards ve selected_arms döndürecek.
epsilon_greedy() işlevini kullanarak çekilecek bir kol seç.
Gerçek haydut olasılıklarına göre reward simüle et.
epsilon değerini azalt; ancak min_epsilon değerinin altına düşmediğinden emin ol.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a 10-armed bandit
true_bandit_probs, counts, values, rewards, selected_arms = ____

for i in range(n_iterations): 
  	# Select an arm
    arm = ____
    # Compute the received reward
    reward = ____
    rewards[i] = reward
    selected_arms[i] = arm
    counts[arm] += 1
    values[arm] += (reward - values[arm]) / counts[arm]
    # Update epsilon
    epsilon = ____

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.

Exercise 1: Reinforcement learning’in temelleri Exercise 2: Pekiştirmeli Öğrenme nedir?Exercise 3: RL ve diğer ML alt alanları Exercise 4: RL uygulama senaryoları Exercise 5: RL çerçevesinde gezinme Exercise 6: RL etkileşim döngüsü Exercise 7: Epizodik ve sürekli RL görevleri Exercise 8: Ajan stratejileri için iskonto edilmiş getirileri hesaplama Exercise 9: Gymnasium ortamlarıyla etkileşim Exercise 10: Mountain Car ortamını kurma Exercise 11: Mountain Car Ortamını Görselleştirme Exercise 12: Frozen Lake ortamıyla etkileşim

Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.

Exercise 1: Markov Karar Süreçleri Exercise 2: Özel Frozen Lake MDP bileşenleri Exercise 3: Durum ve eylem uzaylarını keşfetme Exercise 4: Geçiş olasılıkları ve ödüller Exercise 5: Politikalar ve durum-değer fonksiyonları Exercise 6: Deterministik bir politika tanımlama Exercise 7: Bir politika için durum-değerlerini hesaplama Exercise 8: Politikaları karşılaştırma Exercise 9: Eylem-değer fonksiyonları Exercise 10: Q-değerlerini hesaplama Exercise 11: Bir politikayı iyileştirme Exercise 12: Politika yinelemesi ve değer yinelemesi Exercise 13: En iyi politikayı bulmak için policy iteration uygulama Exercise 14: Değer yinelemesini (value iteration) uygulama

RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.

Exercise 1: Monte Carlo yöntemleri Exercise 2: Monte Carlo yöntemleri için bölüm (episode) üretimi Exercise 3: First-visit Monte Carlo’yu uygulama Exercise 4: Her-ziyaret Monte Carlo'yu uygulama Exercise 5: Zamansal fark öğrenimi Exercise 6: SARSA güncelleme kuralını uygulama Exercise 7: SARSA ile 8x8 Frozen Lake çözümü Exercise 8: Q-learning Exercise 9: Q-learning güncelleme kuralını uygulama Exercise 10: Q-learning ile 8x8 Frozen Lake'i Çözme Exercise 11: Kaygan Frozen Lake üzerinde politikayı değerlendirme

Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.

Exercise 1: Beklenen SARSA Exercise 2: Expected SARSA güncelleme kuralı Exercise 3: Expected SARSA'yı uygulamak Exercise 4: Double Q-learning Exercise 5: Double Q-learning güncelleme kuralını uygulama Exercise 6: Double Q-learning uygulama Exercise 7: Keşif ve sömürüyü dengelemek Exercise 8: Epsilon-greedy fonksiyonunu tanımlama Exercise 9: Epsilon greedy stratejisiyle CliffWalking çözümü Exercise 10: Azalan epsilon-greedy stratejisiyle CliffWalking'i çözme Exercise 11: Çok kollu haydutlar Exercise 12: Çok kollu bir bandit oluşturma Exercise 13: Çok kollu haydut çözme

Geçerli egzersiz

Exercise 14: Çok kollu bir banditte yakınsamayı değerlendirme Exercise 15: Tebrikler!