Vytvoření multi-armed banditu

Problém multi-armed banditu je klasický příklad z oblasti reinforcement learningu, který popisuje situaci, kdy agent musí volit mezi několika akcemi (tzv. „pákami") bez znalosti očekávané odměny za každou z nich. Postupem času se agent učí, která páka přináší nejvyšší odměnu, a to prozkoumáváním jednotlivých možností. V tomto cvičení vytvoříš základní strukturu pro simulaci problému multi-armed banditu.

Knihovna numpy je již naimportovaná jako np.

Vygeneruj pole true_bandit_probs s náhodnými pravděpodobnostmi reprezentujícími skutečnou míru úspěšnosti každého banditu.
Inicializuj dvě pole, counts a values, nulami; counts sleduje, kolikrát byl každý bandit vybrán, a values představuje odhadovanou pravděpodobnost výhry pro každého banditu.
Vytvoř pole rewards a selected_arms pro ukládání získaných odměn a vybraných páček v každé iteraci.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení