1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej

Środowisko CliffWalking to klasyczny punkt odniesienia do testowania algorytmów RL. To świat siatki, w którym agent musi znaleźć ścieżkę od stanu startowego do stanu docelowego, omijając po drodze klify. Strategia epsilon-zachłanna pozwala agentowi skutecznie eksplorować środowisko i uczyć się unikania klifów, maksymalizując skumulowaną nagrodę. Twoim zadaniem jest rozwiązanie tego środowiska przy użyciu strategii epsilon-zachłannej, obliczenie nagród uzyskanych w każdym epizodzie treningowym i zapisanie ich na liście rewards_eps_greedy.

Instrukcje

100 XP
  • W ramach epizodu wybierz akcję action za pomocą funkcji epsilon_greedy().
  • Kumuluj otrzymaną nagrodę reward w zmiennej episode_reward.
  • Po każdym epizodzie dołącz łączną wartość episode_reward do listy rewards_eps_greedy w celu późniejszej analizy.