1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Stosowanie algorytmu Expected SARSA

Teraz zastosujesz algorytm Expected SARSA w niestandardowym środowisku przedstawionym poniżej. Celem agenta jest poruszanie się po siatce i dotarcie do celu jak najszybciej. Obowiązują te same zasady co wcześniej: agent otrzymuje nagrodę +10 za dotarcie do diamentu, -2 za przejście przez górę i -1 za każdy inny stan.

new_cust_env.png

Środowisko zostało zaimportowane jako env.

Instrukcje

100 XP
  • Zainicjalizuj tablicę Q (Q) zerami dla każdej pary stan–akcja.
  • Zaktualizuj tablicę Q, korzystając z funkcji update_q_table().
  • Wyodrębnij politykę jako słownik na podstawie wyuczonej tablicy Q.