1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Bài tập

Ocena zbieżności w problemie wielorękiego bandyty

Ocena skuteczności i zbieżności strategii w problemie wielorękiego bandyty jest kluczowa dla zrozumienia ich działania. Analizując, jak często każde ramię jest wybierane w kolejnych iteracjach, można prześledzić proces uczenia się i zdolność strategii do identyfikowania oraz wykorzystywania najlepszego ramienia. W tym ćwiczeniu zwizualizujesz procentowe udziały wyboru każdego ramienia w kolejnych iteracjach, aby ocenić zbieżność strategii epsilon-zachłannej.

Tablica selected_arms, która pokazuje, które ramię zostało wybrane w każdej iteracji, jest już wczytana i gotowa do użycia.

Hướng dẫn

100 XP
  • Zainicjalizuj tablicę selections_percentage wypełnioną zerami, o wymiarach umożliwiających śledzenie procentowego udziału wyboru każdego bandyty w czasie.
  • Oblicz wartości selections_percentage w czasie, wyznaczając skumulowaną sumę wyborów dla każdego bandyty w kolejnych iteracjach i dzieląc ją przez numer iteracji.
  • Narysuj wykres skumulowanych procentowych udziałów wyboru dla każdego bandyty, aby zwizualizować, jak często każdy z nich jest wybierany w kolejnych iteracjach.