Çok kollu haydut çözme
Bu egzersizde, 10 kollu bir haydut problemini çözmek için epsilon-greedy stratejisini uygulayacaksın; epsilon değeri zamanla azalarak keşiften faydalanmaya geçişi sağlar.
epsilon, min_epsilon ve epsilon_decay senin için önceden tanımlandı. epsilon_greedy() işlevi de içe aktarıldı.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
create_multi_armed_bandit()işlevini kullanarak 10 kollu bir haydut problemini başlat; bu işlevtrue_bandit_probs,counts,values,rewardsveselected_armsdöndürecek.epsilon_greedy()işlevini kullanarak çekilecek bir kol seç.- Gerçek haydut olasılıklarına göre
rewardsimüle et. epsilondeğerini azalt; ancakmin_epsilondeğerinin altına düşmediğinden emin ol.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a 10-armed bandit
true_bandit_probs, counts, values, rewards, selected_arms = ____
for i in range(n_iterations):
# Select an arm
arm = ____
# Compute the received reward
reward = ____
rewards[i] = reward
selected_arms[i] = arm
counts[arm] += 1
values[arm] += (reward - values[arm]) / counts[arm]
# Update epsilon
epsilon = ____