1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Hodnocení konvergence v problému multi-armed bandit

Hodnocení výkonu a konvergence strategií v problému multi-armed bandit je klíčové pro pochopení jejich účinnosti. Analýzou toho, jak často je každé rameno vybíráno v průběhu času, můžeme sledovat proces učení a schopnost strategie identifikovat a využívat nejlepší rameno. V tomto cvičení vizualizuješ procentuální zastoupení výběrů jednotlivých ramen v průběhu iterací a posoudíš, jak dobře epsilon-greedy strategie konverguje.

Pole selected_arms, které zaznamenává, které rameno bylo v každé iteraci vytaženo, je už pro tebe načteno.

Pokyny

100 XP
  • Inicializuj pole selections_percentage nulami s rozměry potřebnými pro sledování procentuálního zastoupení výběrů každého bandity v čase.
  • Vypočítej selections_percentage v průběhu času tak, že pro každého banditu spočítáš kumulativní součet výběrů přes iterace a vydělíš ho číslem příslušné iterace.
  • Vykresli kumulativní procentuální zastoupení výběrů pro každého banditu, abys vizualizoval/a, jak často je každý bandit vybírán v průběhu iterací.