BaşlayınÜcretsiz Başlayın

Çok kollu haydut çözme

Bu egzersizde, 10 kollu bir haydut problemini çözmek için epsilon-greedy stratejisini uygulayacaksın; epsilon değeri zamanla azalarak keşiften faydalanmaya geçişi sağlar.

epsilon, min_epsilon ve epsilon_decay senin için önceden tanımlandı. epsilon_greedy() işlevi de içe aktarıldı.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • create_multi_armed_bandit() işlevini kullanarak 10 kollu bir haydut problemini başlat; bu işlev true_bandit_probs, counts, values, rewards ve selected_arms döndürecek.
  • epsilon_greedy() işlevini kullanarak çekilecek bir kol seç.
  • Gerçek haydut olasılıklarına göre reward simüle et.
  • epsilon değerini azalt; ancak min_epsilon değerinin altına düşmediğinden emin ol.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a 10-armed bandit
true_bandit_probs, counts, values, rewards, selected_arms = ____

for i in range(n_iterations): 
  	# Select an arm
    arm = ____
    # Compute the received reward
    reward = ____
    rewards[i] = reward
    selected_arms[i] = arm
    counts[arm] += 1
    values[arm] += (reward - values[arm]) / counts[arm]
    # Update epsilon
    epsilon = ____
Kodu Düzenle ve Çalıştır