1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Rozwiązywanie Frozen Lake 8x8 z Q-learningiem

W tym ćwiczeniu zastosujesz algorytm Q-learningu, aby nauczyć agenta optymalnej strategii poruszania się po środowisku Frozen Lake 8x8 – tym razem z włączonym trybem "slippery" (śliska powierzchnia). To ustawienie wprowadza stochastyczne przejścia między stanami, przez co ruchy agenta stają się nieprzewidywalne i bliższe rzeczywistym scenariuszom.

Q-tabela Q została już zainicjowana i wczytana, podobnie jak funkcja update_q_table() z poprzedniego ćwiczenia oraz pusta lista rewards_per_episode, w której będą zapisywane łączne nagrody zebrane w każdym epizodzie.

Instrukcje

100 XP
  • W każdym epizodzie wykonaj wybraną akcję i zaobserwuj nagrodę oraz następny stan.
  • Zaktualizuj Q-tabelę.
  • Dodaj total_reward do listy rewards_per_episode.