1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Epsilon-hladovost

V tomto cvičení implementuješ funkci select_action(), která využívá epsilon-hladovost s postupným poklesem.

Epsilon-hladovost povzbuzuje agenta k prozkoumávání prostředí, což by mělo zlepšit jeho učení!

Harmonogram epsilon-hladovosti určuje práh \(\varepsilon\) pro daný krok step podle vzorce: $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

Funkce select_action() by měla s pravděpodobností \(\varepsilon\) vrátit náhodnou akci a s pravděpodobností \(1-\varepsilon\) akci s nejvyšší hodnotou Q.

Pokyny

100 XP
  • Vypočítej práh epsilon pro danou hodnotu step.
  • Vygeneruj náhodné číslo mezi 0 a 1.
  • S pravděpodobností epsilon vrať náhodnou akci.
  • S pravděpodobností 1-epsilon vrať akci s nejvyšší hodnotou Q.