Toestandwaardes voor een policy berekenen

Gebruik dezelfde deterministische omgeving MyGridWorld. Je gaat nu de effectiviteit beoordelen van de policy die je in de vorige oefening hebt gedefinieerd. Dat doe je door voor elke toestand onder deze policy de state-valuefunctie te berekenen.

De omgeving is geïmporteerd als env, samen met de benodigde variabelen (terminal_state, num_states, policy, gamma).

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Oefeninstructies

Maak de functie compute_state_value() af om voor elke toestand de waarde te berekenen onder de gegeven policy.
Maak een state_values-dictionary waarin elke sleutel de state is en elke waarde de toestandwaarde.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.

Exercise 1: Basisprincipes van reinforcement learning Exercise 2: Wat is Reinforcement Learning?Exercise 3: RL vs. andere ML-subdomeinen Exercise 4: Scenario's voor het toepassen van RL Exercise 5: Navigeren door het RL-framework Exercise 6: RL-interactielus Exercise 7: Episodische en continue RL-taken Exercise 8: Gedisconteerde returns berekenen voor agentstrategieën Exercise 9: Interactie met Gymnasium-omgevingen Exercise 10: Een Mountain Car-omgeving opzetten Exercise 11: De Mountain Car-omgeving visualiseren Exercise 12: Interactie met de Frozen Lake-omgeving

Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.

Exercise 1: Markov-beslissingsprocessen Exercise 2: Aangepaste Frozen Lake-MDP-componenten Exercise 3: Verkennen van toestand- en actieruimtes Exercise 4: Overgangswaarschijnlijkheden en beloningen Exercise 5: Policies en toestandswaardefuncties Exercise 6: Een deterministisch beleid definiëren Exercise 7: Toestandwaardes voor een policy berekenen

Huidige oefening

Exercise 8: Beleid vergelijken Exercise 9: Actiewaardefuncties Exercise 10: Q-waarden berekenen Exercise 11: Een beleid verbeteren Exercise 12: Policy-iteratie en value-iteratie Exercise 13: Policy-iteratie toepassen voor een optimale policy Exercise 14: Value-iteratie implementeren

Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.

Exercise 1: Montecarlo-methoden Exercise 2: Episodes genereren voor Monte Carlo-methoden Exercise 3: First-visit Monte Carlo implementeren Exercise 4: Every-Visit Monte Carlo implementeren Exercise 5: Temporal-differentieleren Exercise 6: De SARSA-update regel implementeren Exercise 7: 8x8 Frozen Lake oplossen met SARSA Exercise 8: Q-learning Exercise 9: Q-learning-bijwerkregel implementeren Exercise 10: 8x8 Frozen Lake oplossen met Q-learning Exercise 11: Beleid evalueren op een glad Frozen Lake

Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.

Exercise 1: Expected SARSA Exercise 2: Expected SARSA-update-regel Exercise 3: Expected SARSA toepassen Exercise 4: Double Q-learning Exercise 5: Update-regel van Double Q-learning implementeren Exercise 6: Double Q-learning toepassen Exercise 7: Balans tussen exploratie en exploitatie Exercise 8: Epsilon-greedy-functie definiëren Exercise 9: CliffWalking oplossen met de epsilon-greedystrategie Exercise 10: CliffWalking oplossen met een afnemende epsilon-greedystrategie Exercise 11: Multi-armed bandits Exercise 12: Een multi-armed bandit maken Exercise 13: Een multi-armed bandit oplossen Exercise 14: Convergentie beoordelen in een multi-armed bandit Exercise 15: Gefeliciteerd!