Zastosowanie podwójnego Q-learningu

To ćwiczenie polega na zastosowaniu algorytmu Double Q-learning w tym samym niestandardowym środowisku, które wcześniej rozwiązałeś z użyciem Expected SARSA – dzięki temu zobaczysz różnicę między tymi podejściami. Double Q-learning korzysta z dwóch tablic Q, co pozwala ograniczyć błąd przeszacowania charakterystyczny dla klasycznego Q-learningu i zapewnia większą stabilność uczenia w porównaniu z innymi metodami różnic czasowych. Użyj tej metody, aby nawigować po środowisku siatkowym – dąż do jak najwyższej nagrody, omijaj góry i dotrzyj do celu jak najszybciej.

Zaktualizuj tablice Q za pomocą funkcji update_q_tables(), którą zaimplementowałeś w poprzednim ćwiczeniu.
Połącz tablice Q, sumując je.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie