Řešení CliffWalking s postupně klesající epsilon-greedy strategií

Vylepšením epsilon-greedy strategie je zavedení decay faktoru, který postupně snižuje míru průzkumu — epsilon — jak se agent dozvídá více o prostředí. Tento přístup podporuje průzkum v raných fázích učení a využívání naučených znalostí, jakmile se agent s prostředím lépe seznámí. Teď tuto strategii použiješ k řešení prostředí CliffWalking.

Prostředí je již inicializované a přístupné přes proměnnou env. Proměnné epsilon, min_epsilon a epsilon_decay jsou předem definované. Funkce epsilon_greedy() a update_q_table() jsou naimportované.

Implementuj celou trénovací smyčku: vyber action, proveď ji, přičti obdržený reward k episode_reward a aktualizuj Q-tabulku.
Sniž epsilon pomocí míry epsilon_decay tak, aby nekleslo pod hodnotu min_epsilon.

cvičení

Řešení CliffWalking s postupně klesající epsilon-greedy strategií

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení