1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Implementace first-visit Monte Carlo

Cílem algoritmů Monte Carlo je odhadnout Q-tabulku a na jejím základě odvodit optimální politiku. V tomto cvičení implementuješ metodu First-Visit Monte Carlo pro odhad funkce hodnoty akcí Q a pak vypočítáš optimální politiku pro vlastní prostředí z předchozího cvičení. Při výpočtu výnosu předpokládej diskontní faktor rovný 1.

Pole numpy — Q, returns_sum a returns_count — uchovávají Q-hodnoty, kumulativní součet odměn a počet návštěv pro každý pár stav–akce. Jsou pro tebe již inicializována a připravena k použití.

Pokyny

100 XP
  • Definuj podmínku if, která se má testovat v algoritmu first-visit Monte Carlo.
  • Aktualizuj výnosy (returns_sum), jejich počty (returns_count) a proměnnou visited_states.