1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Implementacja reguły aktualizacji Q-learningu

Q-learning to algorytm uczenia off-policy w uczeniu ze wzmocnieniem (RL), którego celem jest wyznaczenie najlepszej akcji do podjęcia w danym stanie. W przeciwieństwie do algorytmu SARSA, który uwzględnia faktycznie wybraną kolejną akcję, Q-learning aktualizuje wartości Q na podstawie maksymalnej przyszłej nagrody – niezależnie od podjętej akcji. Dzięki temu Q-learning może uczyć się optymalnej polityki, nawet stosując politykę eksploracyjną lub losową. Twoim zadaniem jest zaimplementowanie funkcji, która aktualizuje tablicę Q zgodnie z regułą Q-learningu. Reguła ta jest przedstawiona poniżej.

Biblioteka NumPy jest dostępna pod nazwą np.

Image showing the mathematical formula of the Q-learning update rule.

Instrukcje

100 XP
  • Pobierz bieżącą wartość Q dla podanej pary stan–akcja.
  • Wyznacz maksymalną wartość Q dla następnego stanu, biorąc pod uwagę wszystkie możliwe akcje z actions.
  • Zaktualizuj wartość Q dla bieżącej pary stan–akcja, korzystając z formuły Q-learningu.
  • Zaktualizuj tablicę Q Q, przyjmując, że agent podejmuje akcję 0 w stanie 0, otrzymuje nagrodę 5 i przechodzi do stanu 1.