1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Definice funkce epsilon-greedy

V RL představuje strategie epsilon-greedy rovnováhu mezi průzkumem a využíváním znalostí. Tato metoda vybírá náhodnou akci s pravděpodobností epsilon a nejlepší dosud známou akci s pravděpodobností 1–epsilon. Implementace funkce epsilon_greedy() je klíčová pro algoritmy jako Q-learning a SARSA — zajišťuje, že agent prostředí zároveň prozkoumává i využívá získané znalosti. Právě to bude cílem tohoto cvičení.

Knihovna numpy je naimportována jako np.

Pokyny

100 XP
  • Uvnitř funkce napiš podmínku, při které agent prostředí prozkoumává.
  • Při průzkumu vyber náhodnou action.
  • Při využívání znalostí vyber nejlepší action podle q_table.