cvičení

Implementace pravidla aktualizace Double Q-learningu

Double Q-learning je rozšíření algoritmu Q-learning, které pomáhá snižovat nadhodnocení hodnot akcí tím, že udržuje a aktualizuje dvě samostatné Q-tabulky. Oddělením výběru akce od jejího vyhodnocení poskytuje Double Q-learning přesnější odhad Q-hodnot. Toto cvičení tě provede implementací pravidla aktualizace Double Q-learningu. Seznam Q obsahující dvě Q-tabulky už byl vygenerován.

Knihovna numpy je naimportována jako np a hodnoty gamma a alpha jsou předem načteny. Vzorce pro aktualizaci jsou níže:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Pokyny

100 XP

Náhodně urči, kterou Q-tabulku v Q aktualizovat pro odhad hodnoty akce, a vypočítej její index i.
Proveď potřebné kroky k aktualizaci Q[i].

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení