RL etkileşim döngüsü

Artık bildiğin gibi, RL bir ajanın bir ortamda kümülatif ödülü en üst düzeye çıkarmak için kararlar vermesini içerir. Ajan, hangi eylemlerin en fazla ödül getirdiğini etkileşim yoluyla keşfetmelidir.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Teoriyi etkileşime dönüştürün, interaktif egzersizlerimizden biriyle

Egzersize başla

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.

Exercise 1: Reinforcement learning’in temelleri Exercise 2: Pekiştirmeli Öğrenme nedir?Exercise 3: RL ve diğer ML alt alanları Exercise 4: RL uygulama senaryoları Exercise 5: RL çerçevesinde gezinme Exercise 6: RL etkileşim döngüsü

Geçerli egzersiz

Exercise 7: Epizodik ve sürekli RL görevleri Exercise 8: Ajan stratejileri için iskonto edilmiş getirileri hesaplama Exercise 9: Gymnasium ortamlarıyla etkileşim Exercise 10: Mountain Car ortamını kurma Exercise 11: Mountain Car Ortamını Görselleştirme Exercise 12: Frozen Lake ortamıyla etkileşim

Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.

Exercise 1: Markov Karar Süreçleri Exercise 2: Özel Frozen Lake MDP bileşenleri Exercise 3: Durum ve eylem uzaylarını keşfetme Exercise 4: Geçiş olasılıkları ve ödüller Exercise 5: Politikalar ve durum-değer fonksiyonları Exercise 6: Deterministik bir politika tanımlama Exercise 7: Bir politika için durum-değerlerini hesaplama Exercise 8: Politikaları karşılaştırma Exercise 9: Eylem-değer fonksiyonları Exercise 10: Q-değerlerini hesaplama Exercise 11: Bir politikayı iyileştirme Exercise 12: Politika yinelemesi ve değer yinelemesi Exercise 13: En iyi politikayı bulmak için policy iteration uygulama Exercise 14: Değer yinelemesini (value iteration) uygulama

RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.

Exercise 1: Monte Carlo yöntemleri Exercise 2: Monte Carlo yöntemleri için bölüm (episode) üretimi Exercise 3: First-visit Monte Carlo’yu uygulama Exercise 4: Her-ziyaret Monte Carlo'yu uygulama Exercise 5: Zamansal fark öğrenimi Exercise 6: SARSA güncelleme kuralını uygulama Exercise 7: SARSA ile 8x8 Frozen Lake çözümü Exercise 8: Q-learning Exercise 9: Q-learning güncelleme kuralını uygulama Exercise 10: Q-learning ile 8x8 Frozen Lake'i Çözme Exercise 11: Kaygan Frozen Lake üzerinde politikayı değerlendirme

Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.

Exercise 1: Beklenen SARSA Exercise 2: Expected SARSA güncelleme kuralı Exercise 3: Expected SARSA'yı uygulamak Exercise 4: Double Q-learning Exercise 5: Double Q-learning güncelleme kuralını uygulama Exercise 6: Double Q-learning uygulama Exercise 7: Keşif ve sömürüyü dengelemek Exercise 8: Epsilon-greedy fonksiyonunu tanımlama Exercise 9: Epsilon greedy stratejisiyle CliffWalking çözümü Exercise 10: Azalan epsilon-greedy stratejisiyle CliffWalking'i çözme Exercise 11: Çok kollu haydutlar Exercise 12: Çok kollu bir bandit oluşturma Exercise 13: Çok kollu haydut çözme Exercise 14: Çok kollu bir banditte yakınsamayı değerlendirme Exercise 15: Tebrikler!