1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Implementace pravidla aktualizace Double Q-learningu

Double Q-learning je rozšíření algoritmu Q-learning, které pomáhá snižovat nadhodnocení hodnot akcí tím, že udržuje a aktualizuje dvě samostatné Q-tabulky. Oddělením výběru akce od jejího vyhodnocení poskytuje Double Q-learning přesnější odhad Q-hodnot. Toto cvičení tě provede implementací pravidla aktualizace Double Q-learningu. Seznam Q obsahující dvě Q-tabulky už byl vygenerován.

Knihovna numpy je naimportována jako np a hodnoty gamma a alpha jsou předem načteny. Vzorce pro aktualizaci jsou níže:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Pokyny

100 XP
  • Náhodně urči, kterou Q-tabulku v Q aktualizovat pro odhad hodnoty akce, a vypočítej její index i.
  • Proveď potřebné kroky k aktualizaci Q[i].