Tworzenie problemu wielorękiego bandyty

Problem wielorękiego bandyty to klasyczny przykład stosowany w uczeniu przez wzmacnianie. Opisuje sytuację, w której agent musi wybierać spośród wielu działań (zwanych „ramionami"), nie znając oczekiwanej nagrody za każde z nich. Z czasem agent uczy się, które ramię przynosi najwyższą nagrodę, eksplorując kolejne opcje. W tym ćwiczeniu przygotujesz podstawową strukturę do symulacji problemu wielorękiego bandyty.

Biblioteka numpy została zaimportowana jako np.

Wygeneruj tablicę true_bandit_probs z losowymi prawdopodobieństwami reprezentującymi rzeczywisty współczynnik sukcesu dla każdego bandyty.
Zainicjalizuj dwie tablice, counts i values, zerami; counts śledzi, ile razy każdy bandyta został wybrany, a values przechowuje szacowane prawdopodobieństwo wygranej dla każdego bandyty.
Utwórz tablice rewards i selected_arms, służące do przechowywania otrzymanych nagród oraz wybranych ramion w każdej iteracji.

ćwiczenie

Tworzenie problemu wielorękiego bandyty

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie