Ocena zbieżności w problemie wielorękiego bandyty

Ocena skuteczności i zbieżności strategii w problemie wielorękiego bandyty jest kluczowa dla zrozumienia ich działania. Analizując, jak często każde ramię jest wybierane w kolejnych iteracjach, można prześledzić proces uczenia się i zdolność strategii do identyfikowania oraz wykorzystywania najlepszego ramienia. W tym ćwiczeniu zwizualizujesz procentowe udziały wyboru każdego ramienia w kolejnych iteracjach, aby ocenić zbieżność strategii epsilon-zachłannej.

Tablica selected_arms, która pokazuje, które ramię zostało wybrane w każdej iteracji, jest już wczytana i gotowa do użycia.

Zainicjalizuj tablicę selections_percentage wypełnioną zerami, o wymiarach umożliwiających śledzenie procentowego udziału wyboru każdego bandyty w czasie.
Oblicz wartości selections_percentage w czasie, wyznaczając skumulowaną sumę wyborów dla każdego bandyty w kolejnych iteracjach i dzieląc ją przez numer iteracji.
Narysuj wykres skumulowanych procentowych udziałów wyboru dla każdego bandyty, aby zwizualizować, jak często każdy z nich jest wybierany w kolejnych iteracjach.

Bài tập

Ocena zbieżności w problemie wielorękiego bandyty

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập