1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Zastosowanie podwójnego Q-learningu

To ćwiczenie polega na zastosowaniu algorytmu Double Q-learning w tym samym niestandardowym środowisku, które wcześniej rozwiązałeś z użyciem Expected SARSA – dzięki temu zobaczysz różnicę między tymi podejściami. Double Q-learning korzysta z dwóch tablic Q, co pozwala ograniczyć błąd przeszacowania charakterystyczny dla klasycznego Q-learningu i zapewnia większą stabilność uczenia w porównaniu z innymi metodami różnic czasowych. Użyj tej metody, aby nawigować po środowisku siatkowym – dąż do jak najwyższej nagrody, omijaj góry i dotrzyj do celu jak najszybciej.

new_cust_env.png

Instrukcje

100 XP
  • Zaktualizuj tablice Q za pomocą funkcji update_q_tables(), którą zaimplementowałeś w poprzednim ćwiczeniu.
  • Połącz tablice Q, sumując je.