Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu

V tomto cvičení použiješ algoritmus Q-learning k nalezení optimální strategie pro navigaci v prostředí Frozen Lake 8x8, tentokrát se zapnutou podmínkou „klouzavého" povrchu. Tato výzva zavádí stochastické přechody, které pohyb agenta znesnadňují a přibližují simulaci reálným scénářům.

Q-tabulka Q je již inicializovaná a připravená k použití, stejně jako funkce update_q_table() z předchozího cvičení a prázdný seznam rewards_per_episode, do kterého se bude ukládat celková odměna za každou epizodu.

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

Pokyny k cvičení

Pro každou epizodu proveď vybranou akci a zaznamenej odměnu a následující stav.
Aktualizuj Q-tabulku.
Přidej total_reward do seznamu rewards_per_episode.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

for episode in range(10000):
    state, info = env.reset()
    total_reward = 0
    terminated = False
    while not terminated:
        action = env.action_space.sample()
        # Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Update the Q-table
        ____
        state = next_state
        total_reward += reward
    # Append the total reward to the rewards list    
    rewards_per_episode.____(____)
print("Average reward per random episode: ", np.mean(rewards_per_episode))

Upravit a spustit kód

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

Ponoř se do fascinujícího světa Reinforcement Learning (RL) a prozkoumej jeho základní koncepty, role a praktické využití. Projdeš rámcem RL a odhalíš, jak agent interaguje s prostředím. Naučíš se také pracovat s knihovnou Gymnasium – vytvářet prostředí, vizualizovat stavy a provádět akce. Získáš tak praktické základy konceptů a aplikací RL.

Exercise 1: Základy zpětnovazebního učení Exercise 2: Co je Reinforcement Learning?Exercise 3: RL vs. ostatní oblasti ML Exercise 4: Scénáře pro použití RL Exercise 5: Navigating frameworkem RL Exercise 6: Interakční smyčka v RL Exercise 7: Epizodické a kontinuální úlohy v RL Exercise 8: Výpočet diskontovaných výnosů pro strategie agenta Exercise 9: Interakce s prostředími Gymnasium Exercise 10: Nastavení prostředí Mountain Car Exercise 11: Vizualizace prostředí Mountain Car Exercise 12: Interakce s prostředím Frozen Lake

Ponoř se hlouběji do světa RL se zaměřením na učení s modelem prostředí. Rozkryješ složitosti Markovových rozhodovacích procesů (MDP) a pochopíš jejich klíčové komponenty. Rozšíříš si znalosti o politikách a hodnotových funkcích a získáš odborné dovednosti v optimalizaci politik pomocí technik policy iteration a value iteration.

Exercise 1: Markovovy rozhodovací procesy Exercise 2: Komponenty vlastního MDP Frozen Lake Exercise 3: Prozkoumání stavového a akčního prostoru Exercise 4: Pravděpodobnosti přechodů a odměny Exercise 5: Politiky a funkce hodnoty stavu Exercise 6: Definování deterministické politiky Exercise 7: Výpočet hodnot stavů pro danou politiku Exercise 8: Porovnání politik Exercise 9: Funkce hodnoty akce Exercise 10: Výpočet Q-hodnot Exercise 11: Vylepšení politiky Exercise 12: Iterace politik a iterace hodnot Exercise 13: Aplikace iterace politik pro nalezení optimální politiky Exercise 14: Implementace value iteration

Vydej se na cestu dynamickým světem učení bez modelu prostředí v RL. Seznámíš se se základními metodami Monte Carlo a aplikuješ algoritmy predikce Monte Carlo pro první i každou návštěvu. Pak přejdeš do světa učení s časovými rozdíly a prozkoumáš algoritmus SARSA. Nakonec se ponoříš do Q-learningu a analyzuješ jeho konvergenci v náročných prostředích.

Exercise 1: Metody Monte Carlo Exercise 2: Generování epizod pro metody Monte Carlo Exercise 3: Implementace first-visit Monte Carlo Exercise 4: Implementace metody Monte Carlo s každou návštěvou Exercise 5: Temporální diferenční učení Exercise 6: Implementace aktualizačního pravidla SARSA Exercise 7: Řešení prostředí Frozen Lake 8x8 pomocí SARSA Exercise 8: Q-learning Exercise 9: Implementace aktualizačního pravidla Q-learningu Exercise 10: Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu

Aktuální cvičení

Exercise 11: Vyhodnocení politiky na kluzatém Frozen Lake

Ponoř se do pokročilých strategií RL bez modelu prostředí se zaměřením na zlepšení algoritmů pro rozhodování. Naučíš se používat Expected SARSA pro přesnější aktualizace politik a Double Q-learning pro snížení zkreslení nadhodnocením. Prozkoumáš kompromis mezi explorací a exploitací a zvládneš strategie epsilon-greedy a epsilon-decay pro optimální výběr akcí. Zapojíš se také do řešení problému Multi-Armed Bandit a aplikuješ strategie pro rozhodování v podmínkách nejistoty.

Exercise 1: Expected SARSA Exercise 2: Aktualizační pravidlo Expected SARSA Exercise 3: Aplikace algoritmu Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementace pravidla aktualizace Double Q-learningu Exercise 6: Aplikace Double Q-learningu Exercise 7: Rovnováha mezi explorací a exploitací Exercise 8: Definice funkce epsilon-greedy Exercise 9: Řešení prostředí CliffWalking pomocí epsilon-greedy strategie Exercise 10: Řešení CliffWalking s postupně klesající epsilon-greedy strategií Exercise 11: Problém mnohorukého bandity Exercise 12: Vytvoření multi-armed banditu Exercise 13: Řešení problému multi-armed bandit Exercise 14: Hodnocení konvergence v problému multi-armed bandit Exercise 15: Gratulujeme!