or
Bu egzersiz, kursun bir parçasıdır
Reinforcement Learning (RL) dünyasına, temel kavramlarını, rollerini ve uygulamalarını keşfederek dal. Ajan-çevre etkileşimini inceleyerek RL çerçevesinde gezineceksin. Ayrıca Gymnasium kütüphanesini kullanarak ortamlar oluşturmayı, durumları görselleştirmeyi ve eylemler gerçekleştirmeyi öğrenecek, böylece RL kavramları ve uygulamalarında pratik bir temel edineceksin.
Model tabanlı öğrenmeye odaklanarak RL dünyasında derinleş. Markov Karar Süreçlerinin (MDP) bileşenlerini anlayarak karmaşıklıklarını çöz. Politikalar ve değer fonksiyonları hakkında bilgi edinerek becerilerini geliştir. Politika yinelemesi (policy iteration) ve değer yinelemesi (value iteration) teknikleriyle politika optimizasyonunda uzmanlaş.
RL'de Model Serbest Öğrenmenin dinamik alanında bir yolculuğa çık. Temel Monte Carlo yöntemleriyle tanış; ilk-ziyaret ve her-ziyaret Monte Carlo kestirim algoritmalarını uygula. Ardından Zaman Farkı (Temporal Difference) Öğrenmeye geçerek SARSA algoritmasını keşfet. Son olarak Q-Learning'in derinliklerine in ve zorlu ortamlarda yakınsamasını analiz et.
Geçerli egzersiz
Model Serbest RL'de gelişmiş stratejilere dalarak karar verme algoritmalarını güçlendir. Daha isabetli politika güncellemeleri için Expected SARSA'yı ve aşırı tahmin yanlılığını azaltmak için Double Q-learning'i öğren. Keşif-Sömürü Dengesini inceleyerek en iyi eylem seçimi için epsilon-greedy ve epsilon-azalma (epsilon-decay) stratejilerine hâkim ol. Belirsizlik altında karar verme sorunlarına çözüm getirmek için Çok Kollu Haydut (Multi-Armed Bandit) Problemini ele al ve stratejileri uygula.