Interactie met de Frozen Lake-omgeving

Nu ga je door de Frozen Lake-omgeving navigeren, een roosterwereld waarin acties een agent in specifieke richtingen verplaatsen. Je taak is om de omgeving goed te bekijken en handmatig een lijst met actions te definiëren die de agent van de start (linksboven) naar het doel (rechtsonder) loodst, zonder in gaten te vallen. In de Frozen Lake-omgeving worden acties doorgaans als volgt weergegeven:

0: links
1: omlaag
2: rechts
3: omhoog

Zorg er na het uitvoeren van je code voor dat je door je plots bladert met de knoppen 'Previous Plot' en 'Next Plot' om het gevolgde pad te zien. Dit helpt je de volgorde van acties en hun effecten te begrijpen.

gym en plt zijn geïmporteerd, evenals de functie render() en de variabele env.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Oefeninstructies

Bekijk de positie van de agent rechts en definieer een lijst met actions om de agent over het meer naar het doel te sturen.
Voer elke actie in de lijst uit via de for-lus.
Render de omgeving na elke actie om het pad van de agent te volgen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define the sequence of actions
actions = [____]

for action in actions:
  # Execute each action
  state, reward, terminated, _, _ = ____
  # Render the environment
  ____
  if terminated:
  	print("You reached the goal!")

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.

Exercise 1: Basisprincipes van reinforcement learning Exercise 2: Wat is Reinforcement Learning?Exercise 3: RL vs. andere ML-subdomeinen Exercise 4: Scenario's voor het toepassen van RL Exercise 5: Navigeren door het RL-framework Exercise 6: RL-interactielus Exercise 7: Episodische en continue RL-taken Exercise 8: Gedisconteerde returns berekenen voor agentstrategieën Exercise 9: Interactie met Gymnasium-omgevingen Exercise 10: Een Mountain Car-omgeving opzetten Exercise 11: De Mountain Car-omgeving visualiseren Exercise 12: Interactie met de Frozen Lake-omgeving

Huidige oefening

Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.

Exercise 1: Markov-beslissingsprocessen Exercise 2: Aangepaste Frozen Lake-MDP-componenten Exercise 3: Verkennen van toestand- en actieruimtes Exercise 4: Overgangswaarschijnlijkheden en beloningen Exercise 5: Policies en toestandswaardefuncties Exercise 6: Een deterministisch beleid definiëren Exercise 7: Toestandwaardes voor een policy berekenen Exercise 8: Beleid vergelijken Exercise 9: Actiewaardefuncties Exercise 10: Q-waarden berekenen Exercise 11: Een beleid verbeteren Exercise 12: Policy-iteratie en value-iteratie Exercise 13: Policy-iteratie toepassen voor een optimale policy Exercise 14: Value-iteratie implementeren

Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.

Exercise 1: Montecarlo-methoden Exercise 2: Episodes genereren voor Monte Carlo-methoden Exercise 3: First-visit Monte Carlo implementeren Exercise 4: Every-Visit Monte Carlo implementeren Exercise 5: Temporal-differentieleren Exercise 6: De SARSA-update regel implementeren Exercise 7: 8x8 Frozen Lake oplossen met SARSA Exercise 8: Q-learning Exercise 9: Q-learning-bijwerkregel implementeren Exercise 10: 8x8 Frozen Lake oplossen met Q-learning Exercise 11: Beleid evalueren op een glad Frozen Lake

Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.

Exercise 1: Expected SARSA Exercise 2: Expected SARSA-update-regel Exercise 3: Expected SARSA toepassen Exercise 4: Double Q-learning Exercise 5: Update-regel van Double Q-learning implementeren Exercise 6: Double Q-learning toepassen Exercise 7: Balans tussen exploratie en exploitatie Exercise 8: Epsilon-greedy-functie definiëren Exercise 9: CliffWalking oplossen met de epsilon-greedystrategie Exercise 10: CliffWalking oplossen met een afnemende epsilon-greedystrategie Exercise 11: Multi-armed bandits Exercise 12: Een multi-armed bandit maken Exercise 13: Een multi-armed bandit oplossen Exercise 14: Convergentie beoordelen in een multi-armed bandit Exercise 15: Gefeliciteerd!