Résoudre un bandit manchot à plusieurs bras
Dans cet exercice, vous allez implémenter une stratégie epsilon-greedy pour résoudre un problème de bandit à 10 bras, où la valeur de epsilon décroît au fil du temps afin de passer de l’exploration à l’exploitation.
epsilon, min_epsilon et epsilon_decay ont été pré-définis pour vous. La fonction epsilon_greedy() a également été importée.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Utilisez la fonction
create_multi_armed_bandit()pour initialiser un problème de bandit à 10 bras ; elle retourneratrue_bandit_probs,counts,values,rewardsetselected_arms. - Sélectionnez un bras à tirer avec la fonction
epsilon_greedy(). - Simulez la
rewarden vous basant sur les probabilités réelles du bandit. - Faites décroître la valeur de
epsilonen veillant à ce qu’elle ne passe pas en dessous demin_epsilon.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a 10-armed bandit
true_bandit_probs, counts, values, rewards, selected_arms = ____
for i in range(n_iterations):
# Select an arm
arm = ____
# Compute the received reward
reward = ____
rewards[i] = reward
selected_arms[i] = arm
counts[arm] += 1
values[arm] += (reward - values[arm]) / counts[arm]
# Update epsilon
epsilon = ____