Implementacja reguły aktualizacji w podwójnym Q-uczeniu

Podwójne Q-uczenie (Double Q-learning) to rozszerzenie algorytmu Q-uczenia, które pozwala ograniczyć przecenianie wartości akcji. Osiąga się to przez utrzymywanie i aktualizowanie dwóch oddzielnych tablic Q. Dzięki rozdzieleniu wyboru akcji od jej oceny podwójne Q-uczenie zapewnia dokładniejsze szacowanie wartości Q. To ćwiczenie przeprowadza cię przez implementację reguły aktualizacji w tym algorytmie. Lista Q zawierająca dwie tablice Q została już przygotowana.

Biblioteka numpy została zaimportowana jako np, a wartości gamma i alpha są wstępnie załadowane. Wzory aktualizacji znajdziesz poniżej:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Losowo zdecyduj, którą tablicę Q z listy Q zaktualizować w celu oszacowania wartości akcji – oblicz jej indeks i.
Wykonaj niezbędne kroki, aby zaktualizować Q[i].

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie