Implementace metody Monte Carlo s každou návštěvou

Metoda Monte Carlo s každou návštěvou se liší od varianty s první návštěvou tím, že aktualizuje hodnoty pokaždé, když se dvojice stav–akce objeví, a ne jen při prvním výskytu. Tento přístup umožňuje komplexnější vyhodnocení politiky, protože využívá veškeré dostupné informace z epizod. Na druhou stranu může vnášet větší rozptyl do odhadů hodnot, protože zahrnuje všechny vzorky bez ohledu na to, kdy v epizodě nastávají. Tvým úkolem je dokončit implementaci funkce every_visit_mc(), která odhaduje funkci akčních hodnot Q během num_episodes epizod.

Slovníky returns_sum a returns_count s dvojicemi stav–akce jako klíči jsou již inicializované a připravené, stejně jako funkce generate_episode().

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

Pokyny k cvičení

Vygeneruj epizodu pomocí funkce generate_episode().
Aktualizuj výnosy a jejich počty pro každou dvojici stav–akce v rámci epizody.
Vypočítej odhadované Q-hodnoty.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

Q = np.zeros((num_states, num_actions))
for i in range(100):
  # Generate an episode
  episode = ____
  # Update the returns and their counts
  for j, (state, action, reward) in ____:
    returns_sum[(state,  action)] += sum(____)
    returns_count[(state,  action)] += ____

# Update the Q-values for visited state-action pairs 
nonzero_counts = ____
Q[nonzero_counts] = ____
    
render_policy(get_policy())

Upravit a spustit kód

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

Ponoř se do fascinujícího světa Reinforcement Learning (RL) a prozkoumej jeho základní koncepty, role a praktické využití. Projdeš rámcem RL a odhalíš, jak agent interaguje s prostředím. Naučíš se také pracovat s knihovnou Gymnasium – vytvářet prostředí, vizualizovat stavy a provádět akce. Získáš tak praktické základy konceptů a aplikací RL.

Exercise 1: Základy zpětnovazebního učení Exercise 2: Co je Reinforcement Learning?Exercise 3: RL vs. ostatní oblasti ML Exercise 4: Scénáře pro použití RL Exercise 5: Navigating frameworkem RL Exercise 6: Interakční smyčka v RL Exercise 7: Epizodické a kontinuální úlohy v RL Exercise 8: Výpočet diskontovaných výnosů pro strategie agenta Exercise 9: Interakce s prostředími Gymnasium Exercise 10: Nastavení prostředí Mountain Car Exercise 11: Vizualizace prostředí Mountain Car Exercise 12: Interakce s prostředím Frozen Lake

Ponoř se hlouběji do světa RL se zaměřením na učení s modelem prostředí. Rozkryješ složitosti Markovových rozhodovacích procesů (MDP) a pochopíš jejich klíčové komponenty. Rozšíříš si znalosti o politikách a hodnotových funkcích a získáš odborné dovednosti v optimalizaci politik pomocí technik policy iteration a value iteration.

Exercise 1: Markovovy rozhodovací procesy Exercise 2: Komponenty vlastního MDP Frozen Lake Exercise 3: Prozkoumání stavového a akčního prostoru Exercise 4: Pravděpodobnosti přechodů a odměny Exercise 5: Politiky a funkce hodnoty stavu Exercise 6: Definování deterministické politiky Exercise 7: Výpočet hodnot stavů pro danou politiku Exercise 8: Porovnání politik Exercise 9: Funkce hodnoty akce Exercise 10: Výpočet Q-hodnot Exercise 11: Vylepšení politiky Exercise 12: Iterace politik a iterace hodnot Exercise 13: Aplikace iterace politik pro nalezení optimální politiky Exercise 14: Implementace value iteration

Vydej se na cestu dynamickým světem učení bez modelu prostředí v RL. Seznámíš se se základními metodami Monte Carlo a aplikuješ algoritmy predikce Monte Carlo pro první i každou návštěvu. Pak přejdeš do světa učení s časovými rozdíly a prozkoumáš algoritmus SARSA. Nakonec se ponoříš do Q-learningu a analyzuješ jeho konvergenci v náročných prostředích.

Exercise 1: Metody Monte Carlo Exercise 2: Generování epizod pro metody Monte Carlo Exercise 3: Implementace first-visit Monte Carlo Exercise 4: Implementace metody Monte Carlo s každou návštěvou

Aktuální cvičení

Exercise 5: Temporální diferenční učení Exercise 6: Implementace aktualizačního pravidla SARSA Exercise 7: Řešení prostředí Frozen Lake 8x8 pomocí SARSA Exercise 8: Q-learning Exercise 9: Implementace aktualizačního pravidla Q-learningu Exercise 10: Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu Exercise 11: Vyhodnocení politiky na kluzatém Frozen Lake

Ponoř se do pokročilých strategií RL bez modelu prostředí se zaměřením na zlepšení algoritmů pro rozhodování. Naučíš se používat Expected SARSA pro přesnější aktualizace politik a Double Q-learning pro snížení zkreslení nadhodnocením. Prozkoumáš kompromis mezi explorací a exploitací a zvládneš strategie epsilon-greedy a epsilon-decay pro optimální výběr akcí. Zapojíš se také do řešení problému Multi-Armed Bandit a aplikuješ strategie pro rozhodování v podmínkách nejistoty.

Exercise 1: Expected SARSA Exercise 2: Aktualizační pravidlo Expected SARSA Exercise 3: Aplikace algoritmu Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementace pravidla aktualizace Double Q-learningu Exercise 6: Aplikace Double Q-learningu Exercise 7: Rovnováha mezi explorací a exploitací Exercise 8: Definice funkce epsilon-greedy Exercise 9: Řešení prostředí CliffWalking pomocí epsilon-greedy strategie Exercise 10: Řešení CliffWalking s postupně klesající epsilon-greedy strategií Exercise 11: Problém mnohorukého bandity Exercise 12: Vytvoření multi-armed banditu Exercise 13: Řešení problému multi-armed bandit Exercise 14: Hodnocení konvergence v problému multi-armed bandit Exercise 15: Gratulujeme!