Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA

W tym ćwiczeniu zastosujesz algorytm SARSA wraz z funkcją update_q_table(), którą zaimplementowano wcześniej, aby nauczyć agenta optymalnej strategii działania w środowisku zamarzniętego jeziora 8x8. To środowisko jest identyczne z klasyczną wersją 4x4 – różni się jedynie rozmiarem. Za pomocą algorytmu SARSA będziesz iteracyjnie ulepszać strategię agenta na podstawie nagród otrzymywanych ze środowiska.

Tablica Q Q została już zainicjalizowana i wczytana, podobnie jak funkcja update_q_table() z poprzedniego ćwiczenia.

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

Instrukcje do ćwiczenia

Dla każdego epizodu w procesie trenowania wykonaj wybraną akcję action.
Wybierz next_action losowo.
Zaktualizuj tablicę Q dla danego stanu state i akcji action.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zanurz się w fascynującym świecie uczenia przez wzmacnianie (RL), poznając jego podstawowe koncepcje, role i zastosowania. Przeanalizuj schemat RL, odkrywając interakcję między agentem a środowiskiem. Nauczysz się też korzystać z biblioteki Gymnasium – tworzyć środowiska, wizualizować stany i wykonywać akcje. W ten sposób zbudujesz solidne, praktyczne podstawy w zakresie RL.

Exercise 1: Podstawy uczenia ze wzmocnieniem Exercise 2: Czym jest uczenie przez wzmacnianie?Exercise 3: RL a inne podobszary uczenia maszynowego Exercise 4: Scenariusze zastosowania RL Exercise 5: Nawigacja w środowisku RL Exercise 6: Pętla interakcji w RL Exercise 7: Epizodyczne i ciągłe zadania RL Exercise 8: Obliczanie zdyskontowanych zwrotów dla strategii agenta Exercise 9: Interakcja ze środowiskami Gymnasium Exercise 10: Konfiguracja środowiska Mountain Car Exercise 11: Wizualizacja środowiska Mountain Car Exercise 12: Interakcja ze środowiskiem Frozen Lake

Zagłęb się w świat RL, skupiając się na uczeniu opartym na modelu. Poznaj zawiłości Procesów Decyzyjnych Markowa (MDP) i zrozum ich kluczowe składniki. Rozszerz swoje umiejętności o wiedzę na temat polityk i funkcji wartości. Zdobądź wprawę w optymalizacji polityk, korzystając z technik iteracji polityki i iteracji wartości.

Exercise 1: Procesy decyzyjne Markowa Exercise 2: Komponenty własnego środowiska Frozen Lake jako MDP Exercise 3: Eksploracja przestrzeni stanów i akcji Exercise 4: Prawdopodobieństwa przejść i nagrody Exercise 5: Strategie i funkcje wartości stanu Exercise 6: Definiowanie deterministycznej polityki Exercise 7: Obliczanie wartości stanów dla polityki Exercise 8: Porównywanie polityk Exercise 9: Funkcje wartości akcji Exercise 10: Obliczanie wartości Q Exercise 11: Ulepszanie polityki Exercise 12: Iteracja polityki i iteracja wartości Exercise 13: Zastosowanie iteracji polityki do znalezienia optymalnej polityki Exercise 14: Implementacja iteracji wartości

Wyrusz w podróż przez dynamiczny obszar uczenia bez modelu w RL. Poznaj podstawowe metody Monte Carlo i zastosuj algorytmy predykcji Monte Carlo – przy pierwszej wizycie oraz przy każdej wizycie. Przejdź do świata uczenia różnicami temporalnymi i zapoznaj się z algorytmem SARSA. Na koniec zagłęb się w Q-learning i przeanalizuj jego zbieżność w wymagających środowiskach.

Exercise 1: Metody Monte Carlo Exercise 2: Generowanie epizodów dla metod Monte Carlo Exercise 3: Implementacja Monte Carlo pierwszej wizyty Exercise 4: Implementacja metody Monte Carlo z pełnym odwiedzaniem Exercise 5: Uczenie metodą różnic czasowych Exercise 6: Implementacja reguły aktualizacji SARSA Exercise 7: Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA

Bieżące ćwiczenie

Exercise 8: Q-learning Exercise 9: Implementacja reguły aktualizacji Q-learningu Exercise 10: Rozwiązywanie Frozen Lake 8x8 z Q-learningiem Exercise 11: Ocena polityki na śliskim Zamarzniętym Jeziorze

Poznaj zaawansowane strategie w RL bez modelu, skupiając się na udoskonalaniu algorytmów podejmowania decyzji. Dowiedz się, jak używać Expected SARSA do dokładniejszych aktualizacji polityki, i naucz się stosować Double Q-learning, aby ograniczyć błąd przeszacowania. Zbadaj dylemat eksploracji i eksploatacji, opanowując strategie epsilon-zachłanną i epsilon-zanikającą w celu optymalnego wyboru akcji. Zmierz się z problemem wielorękiego bandyty i zastosuj strategie rozwiązywania problemów decyzyjnych w warunkach niepewności.

Exercise 1: Oczekiwana SARSA (Expected SARSA)Exercise 2: Reguła aktualizacji Expected SARSA Exercise 3: Stosowanie algorytmu Expected SARSA Exercise 4: Podwójne Q-learning Exercise 5: Implementacja reguły aktualizacji w podwójnym Q-uczeniu Exercise 6: Zastosowanie podwójnego Q-learningu Exercise 7: Równoważenie eksploracji i eksploatacji Exercise 8: Definiowanie funkcji epsilon-zachłannej Exercise 9: Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej Exercise 10: Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem Exercise 11: Problem wielorękiego bandyty Exercise 12: Tworzenie problemu wielorękiego bandyty Exercise 13: Rozwiązywanie problemu wielorękiego bandyty Exercise 14: Ocena zbieżności w problemie wielorękiego bandyty Exercise 15: Gratulacje!