Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem

Ulepszając strategię epsilon-greedy, wprowadzamy współczynnik zanikania, który stopniowo zmniejsza współczynnik eksploracji epsilon w miarę jak agent uczy się środowiska. Takie podejście sprzyja eksploracji na wczesnych etapach uczenia, a następnie – w miarę jak agent lepiej poznaje środowisko – pozwala mu coraz bardziej eksploatować zdobytą wiedzę. Teraz zastosujesz tę strategię do rozwiązania środowiska CliffWalking.

Środowisko zostało już zainicjalizowane i jest dostępne pod zmienną env. Zmienne epsilon, min_epsilon oraz epsilon_decay są wstępnie zdefiniowane. Funkcje epsilon_greedy() i update_q_table() zostały zaimportowane.

Zaimplementuj pełną pętlę treningową: wybierz akcję (action), wykonaj ją, dodaj otrzymaną nagrodę (reward) do episode_reward oraz zaktualizuj tablicę Q.
Zmniejsz epsilon za pomocą współczynnika epsilon_decay, dbając o to, aby nie spadło poniżej min_epsilon.

Exercise

Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise