1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA

W tym ćwiczeniu zastosujesz algorytm SARSA wraz z funkcją update_q_table(), którą zaimplementowano wcześniej, aby nauczyć agenta optymalnej strategii działania w środowisku zamarzniętego jeziora 8x8. To środowisko jest identyczne z klasyczną wersją 4x4 – różni się jedynie rozmiarem. Za pomocą algorytmu SARSA będziesz iteracyjnie ulepszać strategię agenta na podstawie nagród otrzymywanych ze środowiska.

Tablica Q Q została już zainicjalizowana i wczytana, podobnie jak funkcja update_q_table() z poprzedniego ćwiczenia.

Instrukcje

100 XP
  • Dla każdego epizodu w procesie trenowania wykonaj wybraną akcję action.
  • Wybierz next_action losowo.
  • Zaktualizuj tablicę Q dla danego stanu state i akcji action.