1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Exercise

Aplikace iterace politik pro nalezení optimální politiky

Iterace politik je základní technika v RL pro nalezení optimální politiky. Sestává ze dvou hlavních kroků: vyhodnocení politiky, při kterém se vypočítá stavová hodnotová funkce pro danou politiku, a zlepšení politiky, při kterém se politika aktualizuje na základě těchto hodnot. Tyto kroky budeš opakovaně aplikovat, dokud nedosáhneš konvergence k optimální politice v prostředí MyGridWorld.

Funkce render_policy() slouží k zobrazení kroků, které agent provede podle dané politiky.

Funkce compute_state_value(state, policy) a compute_q_value(state, action, policy) jsou pro tebe předem načteny.

Instructions 1/3

undefined XP
    1
    2
    3
  • Dokonči funkci policy_evaluation() tak, aby vypočítala stavovou hodnotovou funkci V pro danou politiku policy.