1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Implementacja reguły aktualizacji w podwójnym Q-uczeniu

Podwójne Q-uczenie (Double Q-learning) to rozszerzenie algorytmu Q-uczenia, które pozwala ograniczyć przecenianie wartości akcji. Osiąga się to przez utrzymywanie i aktualizowanie dwóch oddzielnych tablic Q. Dzięki rozdzieleniu wyboru akcji od jej oceny podwójne Q-uczenie zapewnia dokładniejsze szacowanie wartości Q. To ćwiczenie przeprowadza cię przez implementację reguły aktualizacji w tym algorytmie. Lista Q zawierająca dwie tablice Q została już przygotowana.

Biblioteka numpy została zaimportowana jako np, a wartości gamma i alpha są wstępnie załadowane. Wzory aktualizacji znajdziesz poniżej:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Instrukcje

100 XP
  • Losowo zdecyduj, którą tablicę Q z listy Q zaktualizować w celu oszacowania wartości akcji – oblicz jej indeks i.
  • Wykonaj niezbędne kroki, aby zaktualizować Q[i].