Créer un bandit manchot multi-bras
Un problème de bandit manchot multi-bras est un exemple classique en reinforcement learning : un agent doit choisir entre plusieurs actions (ou « bras ») sans connaître la récompense attendue de chacune. Au fil du temps, l’agent apprend quel bras offre la meilleure récompense en explorant chaque option. Dans cet exercice, vous allez mettre en place la structure de base pour simuler un problème de bandit manchot multi-bras.
La bibliothèque numpy a été importée sous le nom np.
Cet exercice fait partie du cours
Reinforcement Learning avec Gymnasium en Python
Instructions
- Générez un tableau
true_bandit_probscontenant des probabilités aléatoires représentant le taux de succès réel sous-jacent de chaque bandit. - Initialisez deux tableaux,
countsetvalues, avec des zéros ;countssuit le nombre de fois où chaque bandit a été choisi, etvaluesreprésente la probabilité de gain estimée de chaque bandit. - Créez les tableaux
rewardsetselected_armspour stocker, à chaque itération, les récompenses obtenues et les bras sélectionnés.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def create_multi_armed_bandit(n_bandits):
# Generate the true bandits probabilities
true_bandit_probs = ____
# Create arrays that store the count and value for each bandit
counts = ____
values = ____
# Create arrays that store the rewards and selected arms each episode
rewards = ____
selected_arms = ____
return true_bandit_probs, counts, values, rewards, selected_arms