Beleid vergelijken

Je krijgt twee toestandswaardefuncties (value_function_1 en value_function_2) die horen bij twee verschillende policies in de MyGridWorld-omgeving. Jouw taak is om deze toestandswaardefuncties per toestand te vergelijken om te bepalen welk beleid effectiever is.

De variabele num_states is beschikbaar voor je om te gebruiken.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Oefeninstructies

Maak een lijst one_is_better met booleans, waarbij elk element controleert of de waarde van de toestand in value_function_1 hoger of gelijk is aan de waarde van de toestand in value_function_2.
Maak een lijst two_is_better met booleans, waarbij elk element controleert of de waarde van de toestand in value_function_2 hoger of gelijk is aan de waarde van de toestand in value_function_1.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.

Exercise 1: Basisprincipes van reinforcement learning Exercise 2: Wat is Reinforcement Learning?Exercise 3: RL vs. andere ML-subdomeinen Exercise 4: Scenario's voor het toepassen van RL Exercise 5: Navigeren door het RL-framework Exercise 6: RL-interactielus Exercise 7: Episodische en continue RL-taken Exercise 8: Gedisconteerde returns berekenen voor agentstrategieën Exercise 9: Interactie met Gymnasium-omgevingen Exercise 10: Een Mountain Car-omgeving opzetten Exercise 11: De Mountain Car-omgeving visualiseren Exercise 12: Interactie met de Frozen Lake-omgeving

Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.

Exercise 1: Markov-beslissingsprocessen Exercise 2: Aangepaste Frozen Lake-MDP-componenten Exercise 3: Verkennen van toestand- en actieruimtes Exercise 4: Overgangswaarschijnlijkheden en beloningen Exercise 5: Policies en toestandswaardefuncties Exercise 6: Een deterministisch beleid definiëren Exercise 7: Toestandwaardes voor een policy berekenen Exercise 8: Beleid vergelijken

Huidige oefening

Exercise 9: Actiewaardefuncties Exercise 10: Q-waarden berekenen Exercise 11: Een beleid verbeteren Exercise 12: Policy-iteratie en value-iteratie Exercise 13: Policy-iteratie toepassen voor een optimale policy Exercise 14: Value-iteratie implementeren

Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.

Exercise 1: Montecarlo-methoden Exercise 2: Episodes genereren voor Monte Carlo-methoden Exercise 3: First-visit Monte Carlo implementeren Exercise 4: Every-Visit Monte Carlo implementeren Exercise 5: Temporal-differentieleren Exercise 6: De SARSA-update regel implementeren Exercise 7: 8x8 Frozen Lake oplossen met SARSA Exercise 8: Q-learning Exercise 9: Q-learning-bijwerkregel implementeren Exercise 10: 8x8 Frozen Lake oplossen met Q-learning Exercise 11: Beleid evalueren op een glad Frozen Lake

Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.

Exercise 1: Expected SARSA Exercise 2: Expected SARSA-update-regel Exercise 3: Expected SARSA toepassen Exercise 4: Double Q-learning Exercise 5: Update-regel van Double Q-learning implementeren Exercise 6: Double Q-learning toepassen Exercise 7: Balans tussen exploratie en exploitatie Exercise 8: Epsilon-greedy-functie definiëren Exercise 9: CliffWalking oplossen met de epsilon-greedystrategie Exercise 10: CliffWalking oplossen met een afnemende epsilon-greedystrategie Exercise 11: Multi-armed bandits Exercise 12: Een multi-armed bandit maken Exercise 13: Een multi-armed bandit oplossen Exercise 14: Convergentie beoordelen in een multi-armed bandit Exercise 15: Gefeliciteerd!