1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Rozwiązywanie problemu wielorękiego bandyty

W tym ćwiczeniu zaimplementujesz strategię epsilon-zachłanną (epsilon-greedy), aby rozwiązać problem 10-rękiego bandyty. Wartość epsilon będzie maleć z czasem, stopniowo przesuwając balans od eksploracji ku eksploatacji.

Zmienne epsilon, min_epsilon oraz epsilon_decay zostały już wcześniej zdefiniowane. Funkcja epsilon_greedy() jest również zaimportowana.

Instrukcje

100 XP
  • Użyj funkcji create_multi_armed_bandit(), aby zainicjować problem 10-rękiego bandyty – funkcja zwróci true_bandit_probs, counts, values, rewards oraz selected_arms.
  • Wybierz ramię do pociągnięcia, korzystając z funkcji epsilon_greedy().
  • Zasymuluj nagrodę (reward) na podstawie prawdziwych prawdopodobieństw bandyty.
  • Zmniejsz wartość epsilon, dbając o to, aby nie spadła poniżej wartości min_epsilon.