1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Řešení CliffWalking s postupně klesající epsilon-greedy strategií

Vylepšením epsilon-greedy strategie je zavedení decay faktoru, který postupně snižuje míru průzkumu — epsilon — jak se agent dozvídá více o prostředí. Tento přístup podporuje průzkum v raných fázích učení a využívání naučených znalostí, jakmile se agent s prostředím lépe seznámí. Teď tuto strategii použiješ k řešení prostředí CliffWalking.

Prostředí je již inicializované a přístupné přes proměnnou env. Proměnné epsilon, min_epsilon a epsilon_decay jsou předem definované. Funkce epsilon_greedy() a update_q_table() jsou naimportované.

Pokyny

100 XP
  • Implementuj celou trénovací smyčku: vyber action, proveď ji, přičti obdržený reward k episode_reward a aktualizuj Q-tabulku.
  • Sniž epsilon pomocí míry epsilon_decay tak, aby nekleslo pod hodnotu min_epsilon.