Definiowanie funkcji epsilon-zachłannej

W uczeniu przez wzmacnianie strategia epsilon-zachłanna (epsilon-greedy) równoważy eksplorację i eksploatację. Polega na wyborze losowej akcji z prawdopodobieństwem epsilon oraz najlepszej znanej akcji z prawdopodobieństwem 1-epsilon. Implementacja funkcji epsilon_greedy() jest kluczowa dla algorytmów takich jak Q-learning czy SARSA – umożliwia agentowi uczenie się zarówno przez odkrywanie środowiska, jak i wykorzystywanie znanych nagród. To właśnie będzie celem tego ćwiczenia.

Biblioteka numpy została zaimportowana jako np.

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

Instrukcje do ćwiczenia

Wewnątrz funkcji zapisz odpowiedni warunek, który pozwoli agentowi eksplorować środowisko.
Podczas eksploracji wybierz losową action.
Podczas eksploatacji wybierz najlepszą action zgodnie z wartościami w q_table.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

epsilon = 0.2
env = gym.make('FrozenLake')
q_table = np.random.rand(env.observation_space.n, env.action_space.n)

def epsilon_greedy(state):
    # Implement the condition to explore
    if ____ < ____:
      	# Choose a random action
        action = ____
    else:
      	# Choose the best action according to q_table
        action = ____
    return action

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zanurz się w fascynującym świecie uczenia przez wzmacnianie (RL), poznając jego podstawowe koncepcje, role i zastosowania. Przeanalizuj schemat RL, odkrywając interakcję między agentem a środowiskiem. Nauczysz się też korzystać z biblioteki Gymnasium – tworzyć środowiska, wizualizować stany i wykonywać akcje. W ten sposób zbudujesz solidne, praktyczne podstawy w zakresie RL.

Exercise 1: Podstawy uczenia ze wzmocnieniem Exercise 2: Czym jest uczenie przez wzmacnianie?Exercise 3: RL a inne podobszary uczenia maszynowego Exercise 4: Scenariusze zastosowania RL Exercise 5: Nawigacja w środowisku RL Exercise 6: Pętla interakcji w RL Exercise 7: Epizodyczne i ciągłe zadania RL Exercise 8: Obliczanie zdyskontowanych zwrotów dla strategii agenta Exercise 9: Interakcja ze środowiskami Gymnasium Exercise 10: Konfiguracja środowiska Mountain Car Exercise 11: Wizualizacja środowiska Mountain Car Exercise 12: Interakcja ze środowiskiem Frozen Lake

Zagłęb się w świat RL, skupiając się na uczeniu opartym na modelu. Poznaj zawiłości Procesów Decyzyjnych Markowa (MDP) i zrozum ich kluczowe składniki. Rozszerz swoje umiejętności o wiedzę na temat polityk i funkcji wartości. Zdobądź wprawę w optymalizacji polityk, korzystając z technik iteracji polityki i iteracji wartości.

Exercise 1: Procesy decyzyjne Markowa Exercise 2: Komponenty własnego środowiska Frozen Lake jako MDP Exercise 3: Eksploracja przestrzeni stanów i akcji Exercise 4: Prawdopodobieństwa przejść i nagrody Exercise 5: Strategie i funkcje wartości stanu Exercise 6: Definiowanie deterministycznej polityki Exercise 7: Obliczanie wartości stanów dla polityki Exercise 8: Porównywanie polityk Exercise 9: Funkcje wartości akcji Exercise 10: Obliczanie wartości Q Exercise 11: Ulepszanie polityki Exercise 12: Iteracja polityki i iteracja wartości Exercise 13: Zastosowanie iteracji polityki do znalezienia optymalnej polityki Exercise 14: Implementacja iteracji wartości

Wyrusz w podróż przez dynamiczny obszar uczenia bez modelu w RL. Poznaj podstawowe metody Monte Carlo i zastosuj algorytmy predykcji Monte Carlo – przy pierwszej wizycie oraz przy każdej wizycie. Przejdź do świata uczenia różnicami temporalnymi i zapoznaj się z algorytmem SARSA. Na koniec zagłęb się w Q-learning i przeanalizuj jego zbieżność w wymagających środowiskach.

Exercise 1: Metody Monte Carlo Exercise 2: Generowanie epizodów dla metod Monte Carlo Exercise 3: Implementacja Monte Carlo pierwszej wizyty Exercise 4: Implementacja metody Monte Carlo z pełnym odwiedzaniem Exercise 5: Uczenie metodą różnic czasowych Exercise 6: Implementacja reguły aktualizacji SARSA Exercise 7: Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA Exercise 8: Q-learning Exercise 9: Implementacja reguły aktualizacji Q-learningu Exercise 10: Rozwiązywanie Frozen Lake 8x8 z Q-learningiem Exercise 11: Ocena polityki na śliskim Zamarzniętym Jeziorze

Poznaj zaawansowane strategie w RL bez modelu, skupiając się na udoskonalaniu algorytmów podejmowania decyzji. Dowiedz się, jak używać Expected SARSA do dokładniejszych aktualizacji polityki, i naucz się stosować Double Q-learning, aby ograniczyć błąd przeszacowania. Zbadaj dylemat eksploracji i eksploatacji, opanowując strategie epsilon-zachłanną i epsilon-zanikającą w celu optymalnego wyboru akcji. Zmierz się z problemem wielorękiego bandyty i zastosuj strategie rozwiązywania problemów decyzyjnych w warunkach niepewności.

Exercise 1: Oczekiwana SARSA (Expected SARSA)Exercise 2: Reguła aktualizacji Expected SARSA Exercise 3: Stosowanie algorytmu Expected SARSA Exercise 4: Podwójne Q-learning Exercise 5: Implementacja reguły aktualizacji w podwójnym Q-uczeniu Exercise 6: Zastosowanie podwójnego Q-learningu Exercise 7: Równoważenie eksploracji i eksploatacji Exercise 8: Definiowanie funkcji epsilon-zachłannej

Bieżące ćwiczenie

Exercise 9: Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej Exercise 10: Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem Exercise 11: Problem wielorękiego bandyty Exercise 12: Tworzenie problemu wielorękiego bandyty Exercise 13: Rozwiązywanie problemu wielorękiego bandyty Exercise 14: Ocena zbieżności w problemie wielorękiego bandyty Exercise 15: Gratulacje!