1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Implementace aktualizačního pravidla Q-learningu

Q-learning je off-policy algoritmus v oblasti reinforcement learningu (RL), jehož cílem je najít nejlepší akci pro aktuální stav. Na rozdíl od algoritmu SARSA, který bere v úvahu skutečně zvolenou další akci, Q-learning aktualizuje své Q-hodnoty pomocí maximální budoucí odměny – bez ohledu na to, jaká akce byla ve skutečnosti provedena. Díky tomu se Q-learning dokáže naučit optimální strategii i při sledování průzkumné nebo zcela náhodné politiky. Tvým úkolem je implementovat funkci, která aktualizuje Q-tabulku podle pravidla Q-learningu. Aktualizační pravidlo Q-learningu je znázorněno níže.

Knihovna NumPy je k dispozici pod názvem np.

Image showing the mathematical formula of the Q-learning update rule.

Pokyny

100 XP
  • Získej aktuální Q-hodnotu pro danou dvojici stav–akce.
  • Urči maximální Q-hodnotu pro následující stav přes všechny možné akce v actions.
  • Aktualizuj Q-hodnotu pro aktuální dvojici stav–akce pomocí vzorce Q-learningu.
  • Aktualizuj Q-tabulku Q pro případ, kdy agent v stavu 0 provede akci 0, obdrží odměnu 5 a přejde do stavu 1.