Stosowanie algorytmu Expected SARSA

Teraz zastosujesz algorytm Expected SARSA w niestandardowym środowisku przedstawionym poniżej. Celem agenta jest poruszanie się po siatce i dotarcie do celu jak najszybciej. Obowiązują te same zasady co wcześniej: agent otrzymuje nagrodę +10 za dotarcie do diamentu, -2 za przejście przez górę i -1 za każdy inny stan.

Środowisko zostało zaimportowane jako env.

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

Instrukcje do ćwiczenia

Zainicjalizuj tablicę Q (Q) zerami dla każdej pary stan–akcja.
Zaktualizuj tablicę Q, korzystając z funkcji update_q_table().
Wyodrębnij politykę jako słownik na podstawie wyuczonej tablicy Q.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Initialize the Q-table with random values
Q = ____
for i_episode in range(num_episodes):
    state, info = env.reset()    
    done = False    
    while not done: 
        action = env.action_space.sample()               
        next_state, reward, done, truncated, info = env.step(action)
        # Update the Q-table
        ____
        state = next_state
# Derive policy from Q-table        
policy = {state: ____ for state in range(____)}
render_policy(policy)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zanurz się w fascynującym świecie uczenia przez wzmacnianie (RL), poznając jego podstawowe koncepcje, role i zastosowania. Przeanalizuj schemat RL, odkrywając interakcję między agentem a środowiskiem. Nauczysz się też korzystać z biblioteki Gymnasium – tworzyć środowiska, wizualizować stany i wykonywać akcje. W ten sposób zbudujesz solidne, praktyczne podstawy w zakresie RL.

Exercise 1: Podstawy uczenia ze wzmocnieniem Exercise 2: Czym jest uczenie przez wzmacnianie?Exercise 3: RL a inne podobszary uczenia maszynowego Exercise 4: Scenariusze zastosowania RL Exercise 5: Nawigacja w środowisku RL Exercise 6: Pętla interakcji w RL Exercise 7: Epizodyczne i ciągłe zadania RL Exercise 8: Obliczanie zdyskontowanych zwrotów dla strategii agenta Exercise 9: Interakcja ze środowiskami Gymnasium Exercise 10: Konfiguracja środowiska Mountain Car Exercise 11: Wizualizacja środowiska Mountain Car Exercise 12: Interakcja ze środowiskiem Frozen Lake

Zagłęb się w świat RL, skupiając się na uczeniu opartym na modelu. Poznaj zawiłości Procesów Decyzyjnych Markowa (MDP) i zrozum ich kluczowe składniki. Rozszerz swoje umiejętności o wiedzę na temat polityk i funkcji wartości. Zdobądź wprawę w optymalizacji polityk, korzystając z technik iteracji polityki i iteracji wartości.

Exercise 1: Procesy decyzyjne Markowa Exercise 2: Komponenty własnego środowiska Frozen Lake jako MDP Exercise 3: Eksploracja przestrzeni stanów i akcji Exercise 4: Prawdopodobieństwa przejść i nagrody Exercise 5: Strategie i funkcje wartości stanu Exercise 6: Definiowanie deterministycznej polityki Exercise 7: Obliczanie wartości stanów dla polityki Exercise 8: Porównywanie polityk Exercise 9: Funkcje wartości akcji Exercise 10: Obliczanie wartości Q Exercise 11: Ulepszanie polityki Exercise 12: Iteracja polityki i iteracja wartości Exercise 13: Zastosowanie iteracji polityki do znalezienia optymalnej polityki Exercise 14: Implementacja iteracji wartości

Wyrusz w podróż przez dynamiczny obszar uczenia bez modelu w RL. Poznaj podstawowe metody Monte Carlo i zastosuj algorytmy predykcji Monte Carlo – przy pierwszej wizycie oraz przy każdej wizycie. Przejdź do świata uczenia różnicami temporalnymi i zapoznaj się z algorytmem SARSA. Na koniec zagłęb się w Q-learning i przeanalizuj jego zbieżność w wymagających środowiskach.

Exercise 1: Metody Monte Carlo Exercise 2: Generowanie epizodów dla metod Monte Carlo Exercise 3: Implementacja Monte Carlo pierwszej wizyty Exercise 4: Implementacja metody Monte Carlo z pełnym odwiedzaniem Exercise 5: Uczenie metodą różnic czasowych Exercise 6: Implementacja reguły aktualizacji SARSA Exercise 7: Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA Exercise 8: Q-learning Exercise 9: Implementacja reguły aktualizacji Q-learningu Exercise 10: Rozwiązywanie Frozen Lake 8x8 z Q-learningiem Exercise 11: Ocena polityki na śliskim Zamarzniętym Jeziorze

Poznaj zaawansowane strategie w RL bez modelu, skupiając się na udoskonalaniu algorytmów podejmowania decyzji. Dowiedz się, jak używać Expected SARSA do dokładniejszych aktualizacji polityki, i naucz się stosować Double Q-learning, aby ograniczyć błąd przeszacowania. Zbadaj dylemat eksploracji i eksploatacji, opanowując strategie epsilon-zachłanną i epsilon-zanikającą w celu optymalnego wyboru akcji. Zmierz się z problemem wielorękiego bandyty i zastosuj strategie rozwiązywania problemów decyzyjnych w warunkach niepewności.

Exercise 1: Oczekiwana SARSA (Expected SARSA)Exercise 2: Reguła aktualizacji Expected SARSA Exercise 3: Stosowanie algorytmu Expected SARSA

Bieżące ćwiczenie

Exercise 4: Podwójne Q-learning Exercise 5: Implementacja reguły aktualizacji w podwójnym Q-uczeniu Exercise 6: Zastosowanie podwójnego Q-learningu Exercise 7: Równoważenie eksploracji i eksploatacji Exercise 8: Definiowanie funkcji epsilon-zachłannej Exercise 9: Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej Exercise 10: Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem Exercise 11: Problem wielorękiego bandyty Exercise 12: Tworzenie problemu wielorękiego bandyty Exercise 13: Rozwiązywanie problemu wielorękiego bandyty Exercise 14: Ocena zbieżności w problemie wielorękiego bandyty Exercise 15: Gratulacje!