Aplikace algoritmu Expected SARSA

Teď aplikuješ algoritmus Expected SARSA ve vlastním prostředí, které vidíš níže. Cílem je navigovat agenta mřížkou tak, aby co nejrychleji dosáhl cíle. Platí stejná pravidla jako dříve: agent dostane odměnu +10 za dosažení diamantu, -2 za průchod horami a -1 za každý jiný stav.

Prostředí je importováno jako env.

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

Pokyny k cvičení

Inicializuj Q-tabulku Q nulami pro každý pár stav–akce.
Aktualizuj Q-tabulku pomocí funkce update_q_table().
Extrahuj politiku jako slovník z naučené Q-tabulky.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Initialize the Q-table with random values
Q = ____
for i_episode in range(num_episodes):
    state, info = env.reset()    
    done = False    
    while not done: 
        action = env.action_space.sample()               
        next_state, reward, done, truncated, info = env.step(action)
        # Update the Q-table
        ____
        state = next_state
# Derive policy from Q-table        
policy = {state: ____ for state in range(____)}
render_policy(policy)

Upravit a spustit kód

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

Ponoř se do fascinujícího světa Reinforcement Learning (RL) a prozkoumej jeho základní koncepty, role a praktické využití. Projdeš rámcem RL a odhalíš, jak agent interaguje s prostředím. Naučíš se také pracovat s knihovnou Gymnasium – vytvářet prostředí, vizualizovat stavy a provádět akce. Získáš tak praktické základy konceptů a aplikací RL.

Exercise 1: Základy zpětnovazebního učení Exercise 2: Co je Reinforcement Learning?Exercise 3: RL vs. ostatní oblasti ML Exercise 4: Scénáře pro použití RL Exercise 5: Navigating frameworkem RL Exercise 6: Interakční smyčka v RL Exercise 7: Epizodické a kontinuální úlohy v RL Exercise 8: Výpočet diskontovaných výnosů pro strategie agenta Exercise 9: Interakce s prostředími Gymnasium Exercise 10: Nastavení prostředí Mountain Car Exercise 11: Vizualizace prostředí Mountain Car Exercise 12: Interakce s prostředím Frozen Lake

Ponoř se hlouběji do světa RL se zaměřením na učení s modelem prostředí. Rozkryješ složitosti Markovových rozhodovacích procesů (MDP) a pochopíš jejich klíčové komponenty. Rozšíříš si znalosti o politikách a hodnotových funkcích a získáš odborné dovednosti v optimalizaci politik pomocí technik policy iteration a value iteration.

Exercise 1: Markovovy rozhodovací procesy Exercise 2: Komponenty vlastního MDP Frozen Lake Exercise 3: Prozkoumání stavového a akčního prostoru Exercise 4: Pravděpodobnosti přechodů a odměny Exercise 5: Politiky a funkce hodnoty stavu Exercise 6: Definování deterministické politiky Exercise 7: Výpočet hodnot stavů pro danou politiku Exercise 8: Porovnání politik Exercise 9: Funkce hodnoty akce Exercise 10: Výpočet Q-hodnot Exercise 11: Vylepšení politiky Exercise 12: Iterace politik a iterace hodnot Exercise 13: Aplikace iterace politik pro nalezení optimální politiky Exercise 14: Implementace value iteration

Vydej se na cestu dynamickým světem učení bez modelu prostředí v RL. Seznámíš se se základními metodami Monte Carlo a aplikuješ algoritmy predikce Monte Carlo pro první i každou návštěvu. Pak přejdeš do světa učení s časovými rozdíly a prozkoumáš algoritmus SARSA. Nakonec se ponoříš do Q-learningu a analyzuješ jeho konvergenci v náročných prostředích.

Exercise 1: Metody Monte Carlo Exercise 2: Generování epizod pro metody Monte Carlo Exercise 3: Implementace first-visit Monte Carlo Exercise 4: Implementace metody Monte Carlo s každou návštěvou Exercise 5: Temporální diferenční učení Exercise 6: Implementace aktualizačního pravidla SARSA Exercise 7: Řešení prostředí Frozen Lake 8x8 pomocí SARSA Exercise 8: Q-learning Exercise 9: Implementace aktualizačního pravidla Q-learningu Exercise 10: Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu Exercise 11: Vyhodnocení politiky na kluzatém Frozen Lake

Ponoř se do pokročilých strategií RL bez modelu prostředí se zaměřením na zlepšení algoritmů pro rozhodování. Naučíš se používat Expected SARSA pro přesnější aktualizace politik a Double Q-learning pro snížení zkreslení nadhodnocením. Prozkoumáš kompromis mezi explorací a exploitací a zvládneš strategie epsilon-greedy a epsilon-decay pro optimální výběr akcí. Zapojíš se také do řešení problému Multi-Armed Bandit a aplikuješ strategie pro rozhodování v podmínkách nejistoty.

Exercise 1: Expected SARSA Exercise 2: Aktualizační pravidlo Expected SARSA Exercise 3: Aplikace algoritmu Expected SARSA

Aktuální cvičení

Exercise 4: Double Q-learning Exercise 5: Implementace pravidla aktualizace Double Q-learningu Exercise 6: Aplikace Double Q-learningu Exercise 7: Rovnováha mezi explorací a exploitací Exercise 8: Definice funkce epsilon-greedy Exercise 9: Řešení prostředí CliffWalking pomocí epsilon-greedy strategie Exercise 10: Řešení CliffWalking s postupně klesající epsilon-greedy strategií Exercise 11: Problém mnohorukého bandity Exercise 12: Vytvoření multi-armed banditu Exercise 13: Řešení problému multi-armed bandit Exercise 14: Hodnocení konvergence v problému multi-armed bandit Exercise 15: Gratulujeme!