or
Bu egzersiz, kursun bir parçasıdır
Deep reinforcement learning’in, geleneksel Reinforcement Learning’e nasıl üstünlük sağladığını keşfet ve ilk Deep Q Learning algoritmanı inceleyip uygula.
Experience Replay, epsilon-greediness ve sabit Q-hedefleri içeren orijinal DQN algoritmasını uygulayarak Deep Q-learning’e dal. DQN’in ötesinde, Deep Q-learning’in performans ve kararlılığını artıran iki etkileyici genişletmeyi keşfedeceksin: Double DQN ve Prioritized Experience Replay.
Geçerli egzersiz
DRL’de yer alan policy gradient yöntemlerinin temel kavramlarını öğren. Bu yöntemlerin temelini oluşturan policy gradient teoremi ile başlayacaksın. Ardından politikaları öğrenmede güçlü bir yaklaşım olan REINFORCE algoritmasını uygulayacaksın. Bölüm, policy gradient ve değer tabanlı yöntemlerin güçlü yönlerini birleştirerek öğrenme verimliliği ve kararlılığını artıran Advantage Actor-Critic (A2C) yöntemine odaklanan Actor-Critic yöntemleriyle devam edecek.
Sağlam DRL performansı için Proximal Policy Optimization (PPO)’ı keşfet. Sonraki adımda, belirleyici politikalara erken yakınsamayı önleyerek keşfi teşvik eden PPO’daki entropi bonusunu inceleyeceksin. Ayrıca policy gradient yöntemlerinde toplu (batch) güncellemeleri öğreneceksin. Son olarak, DRL modellerindeki performansı iyileştirmek için güçlü bir araç olan Optuna ile hiperparametre optimizasyonunu öğreneceksin.