Řešení prostředí Frozen Lake 8x8 pomocí SARSA

V tomto cvičení použiješ algoritmus SARSA spolu s funkcí update_q_table(), kterou jsi implementoval/a v předchozím cvičení, a naučíš agenta optimální strategii pro prostředí Frozen Lake 8x8. Toto prostředí je totožné s klasickou verzí 4x4, liší se pouze větší plochou. Pomocí algoritmu SARSA budeš postupně zlepšovat agentovu strategii na základě odměn získaných z prostředí.

Q-tabulka Q je již inicializována a připravena, stejně jako funkce update_q_table() z předchozího cvičení.

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

Pokyny k cvičení

Pro každou epizodu v procesu trénování proveď vybranou akci action.
Zvol next_action náhodně.
Aktualizuj Q-tabulku pro daný state a action.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())

Upravit a spustit kód

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

Ponoř se do fascinujícího světa Reinforcement Learning (RL) a prozkoumej jeho základní koncepty, role a praktické využití. Projdeš rámcem RL a odhalíš, jak agent interaguje s prostředím. Naučíš se také pracovat s knihovnou Gymnasium – vytvářet prostředí, vizualizovat stavy a provádět akce. Získáš tak praktické základy konceptů a aplikací RL.

Exercise 1: Základy zpětnovazebního učení Exercise 2: Co je Reinforcement Learning?Exercise 3: RL vs. ostatní oblasti ML Exercise 4: Scénáře pro použití RL Exercise 5: Navigating frameworkem RL Exercise 6: Interakční smyčka v RL Exercise 7: Epizodické a kontinuální úlohy v RL Exercise 8: Výpočet diskontovaných výnosů pro strategie agenta Exercise 9: Interakce s prostředími Gymnasium Exercise 10: Nastavení prostředí Mountain Car Exercise 11: Vizualizace prostředí Mountain Car Exercise 12: Interakce s prostředím Frozen Lake

Ponoř se hlouběji do světa RL se zaměřením na učení s modelem prostředí. Rozkryješ složitosti Markovových rozhodovacích procesů (MDP) a pochopíš jejich klíčové komponenty. Rozšíříš si znalosti o politikách a hodnotových funkcích a získáš odborné dovednosti v optimalizaci politik pomocí technik policy iteration a value iteration.

Exercise 1: Markovovy rozhodovací procesy Exercise 2: Komponenty vlastního MDP Frozen Lake Exercise 3: Prozkoumání stavového a akčního prostoru Exercise 4: Pravděpodobnosti přechodů a odměny Exercise 5: Politiky a funkce hodnoty stavu Exercise 6: Definování deterministické politiky Exercise 7: Výpočet hodnot stavů pro danou politiku Exercise 8: Porovnání politik Exercise 9: Funkce hodnoty akce Exercise 10: Výpočet Q-hodnot Exercise 11: Vylepšení politiky Exercise 12: Iterace politik a iterace hodnot Exercise 13: Aplikace iterace politik pro nalezení optimální politiky Exercise 14: Implementace value iteration

Vydej se na cestu dynamickým světem učení bez modelu prostředí v RL. Seznámíš se se základními metodami Monte Carlo a aplikuješ algoritmy predikce Monte Carlo pro první i každou návštěvu. Pak přejdeš do světa učení s časovými rozdíly a prozkoumáš algoritmus SARSA. Nakonec se ponoříš do Q-learningu a analyzuješ jeho konvergenci v náročných prostředích.

Exercise 1: Metody Monte Carlo Exercise 2: Generování epizod pro metody Monte Carlo Exercise 3: Implementace first-visit Monte Carlo Exercise 4: Implementace metody Monte Carlo s každou návštěvou Exercise 5: Temporální diferenční učení Exercise 6: Implementace aktualizačního pravidla SARSA Exercise 7: Řešení prostředí Frozen Lake 8x8 pomocí SARSA

Aktuální cvičení

Exercise 8: Q-learning Exercise 9: Implementace aktualizačního pravidla Q-learningu Exercise 10: Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu Exercise 11: Vyhodnocení politiky na kluzatém Frozen Lake

Ponoř se do pokročilých strategií RL bez modelu prostředí se zaměřením na zlepšení algoritmů pro rozhodování. Naučíš se používat Expected SARSA pro přesnější aktualizace politik a Double Q-learning pro snížení zkreslení nadhodnocením. Prozkoumáš kompromis mezi explorací a exploitací a zvládneš strategie epsilon-greedy a epsilon-decay pro optimální výběr akcí. Zapojíš se také do řešení problému Multi-Armed Bandit a aplikuješ strategie pro rozhodování v podmínkách nejistoty.

Exercise 1: Expected SARSA Exercise 2: Aktualizační pravidlo Expected SARSA Exercise 3: Aplikace algoritmu Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementace pravidla aktualizace Double Q-learningu Exercise 6: Aplikace Double Q-learningu Exercise 7: Rovnováha mezi explorací a exploitací Exercise 8: Definice funkce epsilon-greedy Exercise 9: Řešení prostředí CliffWalking pomocí epsilon-greedy strategie Exercise 10: Řešení CliffWalking s postupně klesající epsilon-greedy strategií Exercise 11: Problém mnohorukého bandity Exercise 12: Vytvoření multi-armed banditu Exercise 13: Řešení problému multi-armed bandit Exercise 14: Hodnocení konvergence v problému multi-armed bandit Exercise 15: Gratulujeme!