Implementacja reguły aktualizacji Q-learningu

Q-learning to algorytm uczenia off-policy w uczeniu ze wzmocnieniem (RL), którego celem jest wyznaczenie najlepszej akcji do podjęcia w danym stanie. W przeciwieństwie do algorytmu SARSA, który uwzględnia faktycznie wybraną kolejną akcję, Q-learning aktualizuje wartości Q na podstawie maksymalnej przyszłej nagrody – niezależnie od podjętej akcji. Dzięki temu Q-learning może uczyć się optymalnej polityki, nawet stosując politykę eksploracyjną lub losową. Twoim zadaniem jest zaimplementowanie funkcji, która aktualizuje tablicę Q zgodnie z regułą Q-learningu. Reguła ta jest przedstawiona poniżej.

Biblioteka NumPy jest dostępna pod nazwą np.

Image showing the mathematical formula of the Q-learning update rule.

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

Instrukcje do ćwiczenia

Pobierz bieżącą wartość Q dla podanej pary stan–akcja.
Wyznacz maksymalną wartość Q dla następnego stanu, biorąc pod uwagę wszystkie możliwe akcje z actions.
Zaktualizuj wartość Q dla bieżącej pary stan–akcja, korzystając z formuły Q-learningu.
Zaktualizuj tablicę Q Q, przyjmując, że agent podejmuje akcję 0 w stanie 0, otrzymuje nagrodę 5 i przechodzi do stanu 1.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

actions = ['action1', 'action2'] 
def update_q_table(state, action, reward, next_state):
  	# Get the old value of the current state-action pair
    old_value = ____
    # Determine the maximum Q-value for the next state
    next_max = ____
    # Compute the new value of the current state-action pair
    Q[state, action] = ____

alpha = 0.1
gamma = 0.95
Q = np.array([[10, 8], [20, 15]], dtype='float32')
# Update the Q-table
____
print(Q)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Uczenie przez wzmacnianie z Gymnasium w Pythonie

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zanurz się w fascynującym świecie uczenia przez wzmacnianie (RL), poznając jego podstawowe koncepcje, role i zastosowania. Przeanalizuj schemat RL, odkrywając interakcję między agentem a środowiskiem. Nauczysz się też korzystać z biblioteki Gymnasium – tworzyć środowiska, wizualizować stany i wykonywać akcje. W ten sposób zbudujesz solidne, praktyczne podstawy w zakresie RL.

Exercise 1: Podstawy uczenia ze wzmocnieniem Exercise 2: Czym jest uczenie przez wzmacnianie?Exercise 3: RL a inne podobszary uczenia maszynowego Exercise 4: Scenariusze zastosowania RL Exercise 5: Nawigacja w środowisku RL Exercise 6: Pętla interakcji w RL Exercise 7: Epizodyczne i ciągłe zadania RL Exercise 8: Obliczanie zdyskontowanych zwrotów dla strategii agenta Exercise 9: Interakcja ze środowiskami Gymnasium Exercise 10: Konfiguracja środowiska Mountain Car Exercise 11: Wizualizacja środowiska Mountain Car Exercise 12: Interakcja ze środowiskiem Frozen Lake

Zagłęb się w świat RL, skupiając się na uczeniu opartym na modelu. Poznaj zawiłości Procesów Decyzyjnych Markowa (MDP) i zrozum ich kluczowe składniki. Rozszerz swoje umiejętności o wiedzę na temat polityk i funkcji wartości. Zdobądź wprawę w optymalizacji polityk, korzystając z technik iteracji polityki i iteracji wartości.

Exercise 1: Procesy decyzyjne Markowa Exercise 2: Komponenty własnego środowiska Frozen Lake jako MDP Exercise 3: Eksploracja przestrzeni stanów i akcji Exercise 4: Prawdopodobieństwa przejść i nagrody Exercise 5: Strategie i funkcje wartości stanu Exercise 6: Definiowanie deterministycznej polityki Exercise 7: Obliczanie wartości stanów dla polityki Exercise 8: Porównywanie polityk Exercise 9: Funkcje wartości akcji Exercise 10: Obliczanie wartości Q Exercise 11: Ulepszanie polityki Exercise 12: Iteracja polityki i iteracja wartości Exercise 13: Zastosowanie iteracji polityki do znalezienia optymalnej polityki Exercise 14: Implementacja iteracji wartości

Wyrusz w podróż przez dynamiczny obszar uczenia bez modelu w RL. Poznaj podstawowe metody Monte Carlo i zastosuj algorytmy predykcji Monte Carlo – przy pierwszej wizycie oraz przy każdej wizycie. Przejdź do świata uczenia różnicami temporalnymi i zapoznaj się z algorytmem SARSA. Na koniec zagłęb się w Q-learning i przeanalizuj jego zbieżność w wymagających środowiskach.

Exercise 1: Metody Monte Carlo Exercise 2: Generowanie epizodów dla metod Monte Carlo Exercise 3: Implementacja Monte Carlo pierwszej wizyty Exercise 4: Implementacja metody Monte Carlo z pełnym odwiedzaniem Exercise 5: Uczenie metodą różnic czasowych Exercise 6: Implementacja reguły aktualizacji SARSA Exercise 7: Rozwiązywanie zamarzniętego jeziora 8x8 za pomocą SARSA Exercise 8: Q-learning Exercise 9: Implementacja reguły aktualizacji Q-learningu

Bieżące ćwiczenie

Exercise 10: Rozwiązywanie Frozen Lake 8x8 z Q-learningiem Exercise 11: Ocena polityki na śliskim Zamarzniętym Jeziorze

Poznaj zaawansowane strategie w RL bez modelu, skupiając się na udoskonalaniu algorytmów podejmowania decyzji. Dowiedz się, jak używać Expected SARSA do dokładniejszych aktualizacji polityki, i naucz się stosować Double Q-learning, aby ograniczyć błąd przeszacowania. Zbadaj dylemat eksploracji i eksploatacji, opanowując strategie epsilon-zachłanną i epsilon-zanikającą w celu optymalnego wyboru akcji. Zmierz się z problemem wielorękiego bandyty i zastosuj strategie rozwiązywania problemów decyzyjnych w warunkach niepewności.

Exercise 1: Oczekiwana SARSA (Expected SARSA)Exercise 2: Reguła aktualizacji Expected SARSA Exercise 3: Stosowanie algorytmu Expected SARSA Exercise 4: Podwójne Q-learning Exercise 5: Implementacja reguły aktualizacji w podwójnym Q-uczeniu Exercise 6: Zastosowanie podwójnego Q-learningu Exercise 7: Równoważenie eksploracji i eksploatacji Exercise 8: Definiowanie funkcji epsilon-zachłannej Exercise 9: Rozwiązywanie CliffWalking za pomocą strategii epsilon-zachłannej Exercise 10: Rozwiązywanie środowiska CliffWalking z użyciem strategii epsilon-greedy z zanikaniem Exercise 11: Problem wielorękiego bandyty Exercise 12: Tworzenie problemu wielorękiego bandyty Exercise 13: Rozwiązywanie problemu wielorękiego bandyty Exercise 14: Ocena zbieżności w problemie wielorękiego bandyty Exercise 15: Gratulacje!