1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Tworzenie problemu wielorękiego bandyty

Problem wielorękiego bandyty to klasyczny przykład stosowany w uczeniu przez wzmacnianie. Opisuje sytuację, w której agent musi wybierać spośród wielu działań (zwanych „ramionami"), nie znając oczekiwanej nagrody za każde z nich. Z czasem agent uczy się, które ramię przynosi najwyższą nagrodę, eksplorując kolejne opcje. W tym ćwiczeniu przygotujesz podstawową strukturę do symulacji problemu wielorękiego bandyty.

Biblioteka numpy została zaimportowana jako np.

Instrukcje

100 XP
  • Wygeneruj tablicę true_bandit_probs z losowymi prawdopodobieństwami reprezentującymi rzeczywisty współczynnik sukcesu dla każdego bandyty.
  • Zainicjalizuj dwie tablice, counts i values, zerami; counts śledzi, ile razy każdy bandyta został wybrany, a values przechowuje szacowane prawdopodobieństwo wygranej dla każdego bandyty.
  • Utwórz tablice rewards i selected_arms, służące do przechowywania otrzymanych nagród oraz wybranych ramion w każdej iteracji.