1. 学习
  2. /
  3. 课程
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

练习

Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu

V tomto cvičení použiješ algoritmus Q-learning k nalezení optimální strategie pro navigaci v prostředí Frozen Lake 8x8, tentokrát se zapnutou podmínkou „klouzavého" povrchu. Tato výzva zavádí stochastické přechody, které pohyb agenta znesnadňují a přibližují simulaci reálným scénářům.

Q-tabulka Q je již inicializovaná a připravená k použití, stejně jako funkce update_q_table() z předchozího cvičení a prázdný seznam rewards_per_episode, do kterého se bude ukládat celková odměna za každou epizodu.

说明

100 XP
  • Pro každou epizodu proveď vybranou akci a zaznamenej odměnu a následující stav.
  • Aktualizuj Q-tabulku.
  • Přidej total_reward do seznamu rewards_per_episode.