CommencerCommencer gratuitement

Résoudre un bandit manchot à plusieurs bras

Dans cet exercice, vous allez implémenter une stratégie epsilon-greedy pour résoudre un problème de bandit à 10 bras, où la valeur de epsilon décroît au fil du temps afin de passer de l’exploration à l’exploitation.

epsilon, min_epsilon et epsilon_decay ont été pré-définis pour vous. La fonction epsilon_greedy() a également été importée.

Cet exercice fait partie du cours

Reinforcement Learning avec Gymnasium en Python

Afficher le cours

Instructions

  • Utilisez la fonction create_multi_armed_bandit() pour initialiser un problème de bandit à 10 bras ; elle retournera true_bandit_probs, counts, values, rewards et selected_arms.
  • Sélectionnez un bras à tirer avec la fonction epsilon_greedy().
  • Simulez la reward en vous basant sur les probabilités réelles du bandit.
  • Faites décroître la valeur de epsilon en veillant à ce qu’elle ne passe pas en dessous de min_epsilon.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a 10-armed bandit
true_bandit_probs, counts, values, rewards, selected_arms = ____

for i in range(n_iterations): 
  	# Select an arm
    arm = ____
    # Compute the received reward
    reward = ____
    rewards[i] = reward
    selected_arms[i] = arm
    counts[arm] += 1
    values[arm] += (reward - values[arm]) / counts[arm]
    # Update epsilon
    epsilon = ____
Modifier et exécuter le code