1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Řešení prostředí CliffWalking pomocí epsilon-greedy strategie

Prostředí CliffWalking je klasická testovací úloha pro RL algoritmy. Jde o mřížkový svět, ve kterém musí agent najít cestu z počátečního stavu do cílového a přitom se vyhnout útesům. Epsilon-greedy strategie agentovi umožňuje efektivně prozkoumávat prostředí a zároveň se učit útesům vyhýbat, čímž maximalizuje kumulativní odměnu. Tvým úkolem je vyřešit toto prostředí pomocí epsilon-greedy strategie, vypočítat odměny získané v každé trénovací epizodě a uložit je do seznamu rewards_eps_greedy.

Pokyny

100 XP
  • V rámci epizody vyber action pomocí funkce epsilon_greedy().
  • Přičítej obdrženou reward k episode_reward.
  • Po každé epizodě přidej celkovou episode_reward do seznamu rewards_eps_greedy pro pozdější analýzu.