1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Vytvoření multi-armed banditu

Problém multi-armed banditu je klasický příklad z oblasti reinforcement learningu, který popisuje situaci, kdy agent musí volit mezi několika akcemi (tzv. „pákami") bez znalosti očekávané odměny za každou z nich. Postupem času se agent učí, která páka přináší nejvyšší odměnu, a to prozkoumáváním jednotlivých možností. V tomto cvičení vytvoříš základní strukturu pro simulaci problému multi-armed banditu.

Knihovna numpy je již naimportovaná jako np.

Pokyny

100 XP
  • Vygeneruj pole true_bandit_probs s náhodnými pravděpodobnostmi reprezentujícími skutečnou míru úspěšnosti každého banditu.
  • Inicializuj dvě pole, counts a values, nulami; counts sleduje, kolikrát byl každý bandit vybrán, a values představuje odhadovanou pravděpodobnost výhry pro každého banditu.
  • Vytvoř pole rewards a selected_arms pro ukládání získaných odměn a vybraných páček v každé iteraci.