Epsilon-hladovost

V tomto cvičení implementuješ funkci select_action(), která využívá epsilon-hladovost s postupným poklesem.

Epsilon-hladovost povzbuzuje agenta k prozkoumávání prostředí, což by mělo zlepšit jeho učení!

Harmonogram epsilon-hladovosti určuje práh $\varepsilon$ pro daný krok step podle vzorce: $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

Funkce select_action() by měla s pravděpodobností $\varepsilon$ vrátit náhodnou akci a s pravděpodobností $1-\varepsilon$ akci s nejvyšší hodnotou Q.

Vypočítej práh epsilon pro danou hodnotu step.
Vygeneruj náhodné číslo mezi 0 a 1.
S pravděpodobností epsilon vrať náhodnou akci.
S pravděpodobností 1-epsilon vrať akci s nejvyšší hodnotou Q.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení