Implementacja metody Monte Carlo z pełnym odwiedzaniem

Metoda Monte Carlo z pełnym odwiedzaniem różni się od wariantu z pierwszym odwiedzaniem tym, że aktualizuje wartości za każdym razem, gdy pojawia się dana para stan-akcja – nie tylko przy pierwszym napotkaniu. Takie podejście zapewnia wszechstronną ocenę polityki, ponieważ wykorzystuje wszystkie dostępne informacje z epizodów. Może jednak wprowadzać większą wariancję w szacunkach wartości, gdyż uwzględnia wszystkie próbki niezależnie od tego, kiedy pojawiają się w epizodzie. Twoim zadaniem jest uzupełnienie implementacji funkcji every_visit_mc(), która szacuje funkcję wartości akcji Q na przestrzeni num_episodes epizodów.

Słowniki returns_sum i returns_count, z parami stan-akcja jako kluczami, zostały już zainicjalizowane i wczytane, podobnie jak funkcja generate_episode().

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

Instrukcje do ćwiczenia

Wygeneruj epizod za pomocą funkcji generate_episode().
Zaktualizuj sumy zwrotów oraz ich liczniki dla każdej pary stan-akcja w epizodzie.
Oblicz szacowane wartości Q.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

Q = np.zeros((num_states, num_actions))
for i in range(100):
  # Generate an episode
  episode = ____
  # Update the returns and their counts
  for j, (state, action, reward) in ____:
    returns_sum[(state,  action)] += sum(____)
    returns_count[(state,  action)] += ____

# Update the Q-values for visited state-action pairs 
nonzero_counts = ____
Q[nonzero_counts] = ____
    
render_policy(get_policy())

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zanurz się w fascynującym świecie uczenia przez wzmacnianie (RL), poznając jego podstawowe koncepcje, role i zastosowania. Przeanalizuj schemat RL, odkrywając interakcję między agentem a środowiskiem. Nauczysz się też korzystać z biblioteki Gymnasium – tworzyć środowiska, wizualizować stany i wykonywać akcje. W ten sposób zbudujesz solidne, praktyczne podstawy w zakresie RL.

Exercise 1: Podstawy uczenia ze wzmocnieniem Exercise 2: Czym jest uczenie przez wzmacnianie?Exercise 3: RL a inne podobszary uczenia maszynowego Exercise 4: Scenariusze zastosowania RL Exercise 5: Nawigacja w środowisku RL Exercise 6: Pętla interakcji w RL Exercise 7: Epizodyczne i ciągłe zadania RL Exercise 8: Obliczanie zdyskontowanych zwrotów dla strategii agenta Exercise 9: Interakcja ze środowiskami Gymnasium Exercise 10: Konfiguracja środowiska Mountain Car Exercise 11: Wizualizacja środowiska Mountain Car Exercise 12: Interakcja ze środowiskiem Frozen Lake

Zagłęb się w świat RL, skupiając się na uczeniu opartym na modelu. Poznaj zawiłości Procesów Decyzyjnych Markowa (MDP) i zrozum ich kluczowe składniki. Rozszerz swoje umiejętności o wiedzę na temat polityk i funkcji wartości. Zdobądź wprawę w optymalizacji polityk, korzystając z technik iteracji polityki i iteracji wartości.

Exercise 1: Procesy decyzyjne Markowa Exercise 2: Komponenty własnego środowiska Frozen Lake jako MDP Exercise 3: Eksploracja przestrzeni stanów i akcji Exercise 4: Prawdopodobieństwa przejść i nagrody Exercise 5: Strategie i funkcje wartości stanu Exercise 6: Definiowanie deterministycznej polityki Exercise 7: Obliczanie wartości stanów dla polityki Exercise 8: Porównywanie polityk Exercise 9: Funkcje wartości akcji Exercise 10: Obliczanie wartości Q Exercise 11: Ulepszanie polityki Exercise 12: Iteracja polityki i iteracja wartości Exercise 13: Zastosowanie iteracji polityki do znalezienia optymalnej polityki Exercise 14: Implementacja iteracji wartości

Wyrusz w podróż przez dynamiczny obszar uczenia bez modelu w RL. Poznaj podstawowe metody Monte Carlo i zastosuj algorytmy predykcji Monte Carlo – przy pierwszej wizycie oraz przy każdej wizycie. Przejdź do świata uczenia różnicami temporalnymi i zapoznaj się z algorytmem SARSA. Na koniec zagłęb się w Q-learning i przeanalizuj jego zbieżność w wymagających środowiskach.

Exercise 1: Metody Monte Carlo Exercise 2: Generowanie epizodów dla metod Monte Carlo Exercise 3: Implementacja Monte Carlo pierwszej wizyty Exercise 4: Implementacja metody Monte Carlo z pełnym odwiedzaniem

Bieżące ćwiczenie

Exercise 5: Uczenie metodą różnic czasowych Exercise 6: Implementacja reguły aktualizacji SARSA Exercise 7: Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA Exercise 8: Q-learning Exercise 9: Implementacja reguły aktualizacji Q-learningu Exercise 10: Rozwiązywanie Frozen Lake 8x8 z Q-learningiem Exercise 11: Ocena polityki na śliskim Zamarzniętym Jeziorze

Poznaj zaawansowane strategie w RL bez modelu, skupiając się na udoskonalaniu algorytmów podejmowania decyzji. Dowiedz się, jak używać Expected SARSA do dokładniejszych aktualizacji polityki, i naucz się stosować Double Q-learning, aby ograniczyć błąd przeszacowania. Zbadaj dylemat eksploracji i eksploatacji, opanowując strategie epsilon-zachłanną i epsilon-zanikającą w celu optymalnego wyboru akcji. Zmierz się z problemem wielorękiego bandyty i zastosuj strategie rozwiązywania problemów decyzyjnych w warunkach niepewności.

Exercise 1: Oczekiwana SARSA (Expected SARSA)Exercise 2: Reguła aktualizacji Expected SARSA Exercise 3: Stosowanie algorytmu Expected SARSA Exercise 4: Podwójne Q-learning Exercise 5: Implementacja reguły aktualizacji w podwójnym Q-uczeniu Exercise 6: Zastosowanie podwójnego Q-learningu Exercise 7: Równoważenie eksploracji i eksploatacji Exercise 8: Definiowanie funkcji epsilon-zachłannej Exercise 9: Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej Exercise 10: Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem Exercise 11: Problem wielorękiego bandyty Exercise 12: Tworzenie problemu wielorękiego bandyty Exercise 13: Rozwiązywanie problemu wielorękiego bandyty Exercise 14: Ocena zbieżności w problemie wielorękiego bandyty Exercise 15: Gratulacje!