RL etkileşim döngüsü
Artık bildiğin gibi, RL bir ajanın bir ortamda kümülatif ödülü en üst düzeye çıkarmak için kararlar vermesini içerir. Ajan, hangi eylemlerin en fazla ödül getirdiğini etkileşim yoluyla keşfetmelidir.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat