1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Implementacja Monte Carlo pierwszej wizyty

Celem algorytmów Monte Carlo jest estymacja tablicy Q w celu wyznaczenia optymalnej polityki. W tym ćwiczeniu zaimplementujesz metodę Monte Carlo pierwszej wizyty, aby oszacować funkcję wartości akcji Q, a następnie wyznaczyć optymalną politykę rozwiązującą środowisko niestandardowe z poprzedniego ćwiczenia. Przy obliczaniu zwrotu przyjmij współczynnik dyskontowania równy 1.

Tablice numpy: Q, returns_sum i returns_count, przechowujące odpowiednio wartości Q, skumulowaną sumę nagród oraz liczbę wizyt dla każdej pary stan-akcja, zostały już zainicjalizowane i wczytane.

Instrukcje

100 XP
  • Zdefiniuj warunek if, który powinien być sprawdzany w algorytmie Monte Carlo pierwszej wizyty.
  • Zaktualizuj zwroty (returns_sum), ich liczniki (returns_count) oraz visited_states.