1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Implementace aktualizačního pravidla SARSA

SARSA je on-policy algoritmus v RL, který aktualizuje funkci hodnoty akce na základě provedené akce a akce zvolené v dalším stavu. Tento přístup umožňuje učit se hodnotu nejen aktuální dvojice stav–akce, ale i té následující, a tím nacházet strategie, které zohledňují budoucí akce. Níže je zobrazeno aktualizační pravidlo SARSA – tvým úkolem je implementovat funkci, která podle tohoto pravidla aktualizuje Q-tabulku.

Knihovna NumPy je dostupná jako np.

Image showing the mathematical formula of the SARSA update rule.

Pokyny

100 XP
  • Načti aktuální Q-hodnotu pro danou dvojici stav–akce.
  • Zjisti Q-hodnotu pro následující dvojici stav–akce.
  • Aktualizuj Q-hodnotu aktuální dvojice stav–akce pomocí vzorce SARSA.
  • Aktualizuj Q-tabulku Q pro situaci, kdy agent provede akci 0 ve stavu 0, obdrží odměnu 5, přejde do stavu 1 a provede akci 1.