1. Learn
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem

Ulepszając strategię epsilon-greedy, wprowadzamy współczynnik zanikania, który stopniowo zmniejsza współczynnik eksploracji epsilon w miarę jak agent uczy się środowiska. Takie podejście sprzyja eksploracji na wczesnych etapach uczenia, a następnie – w miarę jak agent lepiej poznaje środowisko – pozwala mu coraz bardziej eksploatować zdobytą wiedzę. Teraz zastosujesz tę strategię do rozwiązania środowiska CliffWalking.

Środowisko zostało już zainicjalizowane i jest dostępne pod zmienną env. Zmienne epsilon, min_epsilon oraz epsilon_decay są wstępnie zdefiniowane. Funkcje epsilon_greedy() i update_q_table() zostały zaimportowane.

Instructions

100 XP
  • Zaimplementuj pełną pętlę treningową: wybierz akcję (action), wykonaj ją, dodaj otrzymaną nagrodę (reward) do episode_reward oraz zaktualizuj tablicę Q.
  • Zmniejsz epsilon za pomocą współczynnika epsilon_decay, dbając o to, aby nie spadło poniżej min_epsilon.