1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Ocena polityki na śliskim Zamarzniętym Jeziorze

W środowisku śliskiego Zamarzniętego Jeziora samo odczytanie polityki z wyuczonej tablicy Q nie wystarczy, by ocenić jej skuteczność. Aby rzetelnie sprawdzić jakość wyuczonej polityki, trzeba rozegrać wiele epizodów i obserwować średnią uzyskaną nagrodę. To ćwiczenie porównuje efektywność wyuczonej polityki z poziomem bazowym wyznaczonym przez losową politykę stosowaną podczas treningu. Twoim zadaniem jest wykonanie wyuczonej polityki przez kilka epizodów, analiza jej wyników na podstawie zebranych średnich nagród oraz porównanie ich ze średnimi nagrodami uzyskanymi w fazie losowej polityki.

Tablica Q Q, num_states, num_actions oraz avg_reward_per_random_episode zostały wstępnie załadowane. Biblioteka NumPy została zaimportowana jako np.

Instrukcje

100 XP
  • W każdej iteracji wybierz najlepszą akcję na podstawie wyuczonej tablicy Q Q.
  • Oblicz średnią nagrodę na wyuczony epizod avg_reward_per_learned_episode.