BaşlayınÜcretsiz Başlayın

RL etkileşim döngüsü

Artık bildiğin gibi, RL bir ajanın bir ortamda kümülatif ödülü en üst düzeye çıkarmak için kararlar vermesini içerir. Ajan, hangi eylemlerin en fazla ödül getirdiğini etkileşim yoluyla keşfetmelidir.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün

Egzersizi başlat