CommencerCommencer gratuitement

Créer un bandit manchot multi-bras

Un problème de bandit manchot multi-bras est un exemple classique en reinforcement learning : un agent doit choisir entre plusieurs actions (ou « bras ») sans connaître la récompense attendue de chacune. Au fil du temps, l’agent apprend quel bras offre la meilleure récompense en explorant chaque option. Dans cet exercice, vous allez mettre en place la structure de base pour simuler un problème de bandit manchot multi-bras.

La bibliothèque numpy a été importée sous le nom np.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Générez un tableau true_bandit_probs contenant des probabilités aléatoires représentant le taux de succès réel sous-jacent de chaque bandit.
  • Initialisez deux tableaux, counts et values, avec des zéros ; counts suit le nombre de fois où chaque bandit a été choisi, et values représente la probabilité de gain estimée de chaque bandit.
  • Créez les tableaux rewards et selected_arms pour stocker, à chaque itération, les récompenses obtenues et les bras sélectionnés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def create_multi_armed_bandit(n_bandits):
  	# Generate the true bandits probabilities
    true_bandit_probs = ____ 
    # Create arrays that store the count and value for each bandit
    counts = ____  
    values = ____  
    # Create arrays that store the rewards and selected arms each episode
    rewards = ____
    selected_arms = ____ 
    return true_bandit_probs, counts, values, rewards, selected_arms
Modifier et exécuter le code