1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Implementacja metody Monte Carlo z pełnym odwiedzaniem

Metoda Monte Carlo z pełnym odwiedzaniem różni się od wariantu z pierwszym odwiedzaniem tym, że aktualizuje wartości za każdym razem, gdy pojawia się dana para stan-akcja – nie tylko przy pierwszym napotkaniu. Takie podejście zapewnia wszechstronną ocenę polityki, ponieważ wykorzystuje wszystkie dostępne informacje z epizodów. Może jednak wprowadzać większą wariancję w szacunkach wartości, gdyż uwzględnia wszystkie próbki niezależnie od tego, kiedy pojawiają się w epizodzie. Twoim zadaniem jest uzupełnienie implementacji funkcji every_visit_mc(), która szacuje funkcję wartości akcji Q na przestrzeni num_episodes epizodów.

Słowniki returns_sum i returns_count, z parami stan-akcja jako kluczami, zostały już zainicjalizowane i wczytane, podobnie jak funkcja generate_episode().

Instrukcje

100 XP
  • Wygeneruj epizod za pomocą funkcji generate_episode().
  • Zaktualizuj sumy zwrotów oraz ich liczniki dla każdej pary stan-akcja w epizodzie.
  • Oblicz szacowane wartości Q.