Hodnocení konvergence v problému multi-armed bandit

Hodnocení výkonu a konvergence strategií v problému multi-armed bandit je klíčové pro pochopení jejich účinnosti. Analýzou toho, jak často je každé rameno vybíráno v průběhu času, můžeme sledovat proces učení a schopnost strategie identifikovat a využívat nejlepší rameno. V tomto cvičení vizualizuješ procentuální zastoupení výběrů jednotlivých ramen v průběhu iterací a posoudíš, jak dobře epsilon-greedy strategie konverguje.

Pole selected_arms, které zaznamenává, které rameno bylo v každé iteraci vytaženo, je už pro tebe načteno.

Inicializuj pole selections_percentage nulami s rozměry potřebnými pro sledování procentuálního zastoupení výběrů každého bandity v čase.
Vypočítej selections_percentage v průběhu času tak, že pro každého banditu spočítáš kumulativní součet výběrů přes iterace a vydělíš ho číslem příslušné iterace.
Vykresli kumulativní procentuální zastoupení výběrů pro každého banditu, abys vizualizoval/a, jak často je každý bandit vybírán v průběhu iterací.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení