Implementace first-visit Monte Carlo

Cílem algoritmů Monte Carlo je odhadnout Q-tabulku a na jejím základě odvodit optimální politiku. V tomto cvičení implementuješ metodu First-Visit Monte Carlo pro odhad funkce hodnoty akcí Q a pak vypočítáš optimální politiku pro vlastní prostředí z předchozího cvičení. Při výpočtu výnosu předpokládej diskontní faktor rovný 1.

Pole numpy — Q, returns_sum a returns_count — uchovávají Q-hodnoty, kumulativní součet odměn a počet návštěv pro každý pár stav–akce. Jsou pro tebe již inicializována a připravena k použití.

Definuj podmínku if, která se má testovat v algoritmu first-visit Monte Carlo.
Aktualizuj výnosy (returns_sum), jejich počty (returns_count) a proměnnou visited_states.

Cvičení

Implementace first-visit Monte Carlo

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Cvičení

Pokyny

Cvičení