Implementace aktualizačního pravidla Q-learningu

Q-learning je off-policy algoritmus v oblasti reinforcement learningu (RL), jehož cílem je najít nejlepší akci pro aktuální stav. Na rozdíl od algoritmu SARSA, který bere v úvahu skutečně zvolenou další akci, Q-learning aktualizuje své Q-hodnoty pomocí maximální budoucí odměny – bez ohledu na to, jaká akce byla ve skutečnosti provedena. Díky tomu se Q-learning dokáže naučit optimální strategii i při sledování průzkumné nebo zcela náhodné politiky. Tvým úkolem je implementovat funkci, která aktualizuje Q-tabulku podle pravidla Q-learningu. Aktualizační pravidlo Q-learningu je znázorněno níže.

Knihovna NumPy je k dispozici pod názvem np.

Image showing the mathematical formula of the Q-learning update rule.

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

Pokyny k cvičení

Získej aktuální Q-hodnotu pro danou dvojici stav–akce.
Urči maximální Q-hodnotu pro následující stav přes všechny možné akce v actions.
Aktualizuj Q-hodnotu pro aktuální dvojici stav–akce pomocí vzorce Q-learningu.
Aktualizuj Q-tabulku Q pro případ, kdy agent v stavu 0 provede akci 0, obdrží odměnu 5 a přejde do stavu 1.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

actions = ['action1', 'action2'] 
def update_q_table(state, action, reward, next_state):
  	# Get the old value of the current state-action pair
    old_value = ____
    # Determine the maximum Q-value for the next state
    next_max = ____
    # Compute the new value of the current state-action pair
    Q[state, action] = ____

alpha = 0.1
gamma = 0.95
Q = np.array([[10, 8], [20, 15]], dtype='float32')
# Update the Q-table
____
print(Q)

Upravit a spustit kód

Toto cvičení je součástí kurzu

Reinforcement Learning with Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

Ponoř se do fascinujícího světa Reinforcement Learning (RL) a prozkoumej jeho základní koncepty, role a praktické využití. Projdeš rámcem RL a odhalíš, jak agent interaguje s prostředím. Naučíš se také pracovat s knihovnou Gymnasium – vytvářet prostředí, vizualizovat stavy a provádět akce. Získáš tak praktické základy konceptů a aplikací RL.

Exercise 1: Základy zpětnovazebního učení Exercise 2: Co je Reinforcement Learning?Exercise 3: RL vs. ostatní oblasti ML Exercise 4: Scénáře pro použití RL Exercise 5: Navigating frameworkem RL Exercise 6: Interakční smyčka v RL Exercise 7: Epizodické a kontinuální úlohy v RL Exercise 8: Výpočet diskontovaných výnosů pro strategie agenta Exercise 9: Interakce s prostředími Gymnasium Exercise 10: Nastavení prostředí Mountain Car Exercise 11: Vizualizace prostředí Mountain Car Exercise 12: Interakce s prostředím Frozen Lake

Ponoř se hlouběji do světa RL se zaměřením na učení s modelem prostředí. Rozkryješ složitosti Markovových rozhodovacích procesů (MDP) a pochopíš jejich klíčové komponenty. Rozšíříš si znalosti o politikách a hodnotových funkcích a získáš odborné dovednosti v optimalizaci politik pomocí technik policy iteration a value iteration.

Exercise 1: Markovovy rozhodovací procesy Exercise 2: Komponenty vlastního MDP Frozen Lake Exercise 3: Prozkoumání stavového a akčního prostoru Exercise 4: Pravděpodobnosti přechodů a odměny Exercise 5: Politiky a funkce hodnoty stavu Exercise 6: Definování deterministické politiky Exercise 7: Výpočet hodnot stavů pro danou politiku Exercise 8: Porovnání politik Exercise 9: Funkce hodnoty akce Exercise 10: Výpočet Q-hodnot Exercise 11: Vylepšení politiky Exercise 12: Iterace politik a iterace hodnot Exercise 13: Aplikace iterace politik pro nalezení optimální politiky Exercise 14: Implementace value iteration

Vydej se na cestu dynamickým světem učení bez modelu prostředí v RL. Seznámíš se se základními metodami Monte Carlo a aplikuješ algoritmy predikce Monte Carlo pro první i každou návštěvu. Pak přejdeš do světa učení s časovými rozdíly a prozkoumáš algoritmus SARSA. Nakonec se ponoříš do Q-learningu a analyzuješ jeho konvergenci v náročných prostředích.

Exercise 1: Metody Monte Carlo Exercise 2: Generování epizod pro metody Monte Carlo Exercise 3: Implementace first-visit Monte Carlo Exercise 4: Implementace metody Monte Carlo s každou návštěvou Exercise 5: Temporální diferenční učení Exercise 6: Implementace aktualizačního pravidla SARSA Exercise 7: Řešení prostředí Frozen Lake 8x8 pomocí SARSA Exercise 8: Q-learning Exercise 9: Implementace aktualizačního pravidla Q-learningu

Aktuální cvičení

Exercise 10: Řešení prostředí Frozen Lake 8x8 pomocí Q-learningu Exercise 11: Vyhodnocení politiky na kluzatém Frozen Lake

Ponoř se do pokročilých strategií RL bez modelu prostředí se zaměřením na zlepšení algoritmů pro rozhodování. Naučíš se používat Expected SARSA pro přesnější aktualizace politik a Double Q-learning pro snížení zkreslení nadhodnocením. Prozkoumáš kompromis mezi explorací a exploitací a zvládneš strategie epsilon-greedy a epsilon-decay pro optimální výběr akcí. Zapojíš se také do řešení problému Multi-Armed Bandit a aplikuješ strategie pro rozhodování v podmínkách nejistoty.

Exercise 1: Expected SARSA Exercise 2: Aktualizační pravidlo Expected SARSA Exercise 3: Aplikace algoritmu Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementace pravidla aktualizace Double Q-learningu Exercise 6: Aplikace Double Q-learningu Exercise 7: Rovnováha mezi explorací a exploitací Exercise 8: Definice funkce epsilon-greedy Exercise 9: Řešení prostředí CliffWalking pomocí epsilon-greedy strategie Exercise 10: Řešení CliffWalking s postupně klesající epsilon-greedy strategií Exercise 11: Problém mnohorukého bandity Exercise 12: Vytvoření multi-armed banditu Exercise 13: Řešení problému multi-armed bandit Exercise 14: Hodnocení konvergence v problému multi-armed bandit Exercise 15: Gratulujeme!