Aangepaste Frozen Lake-MDP-componenten

De meegeleverde gridworld-omgeving is een variant van de Frozen Lake-omgeving waarin een agent naar een doel moet navigeren terwijl hij gaten vermijdt. Jouw taak is om deze omgeving te analyseren en te formuleren als een MDP door specifieke vragen te beantwoorden.

Je kunt proberen te antwoorden door de omgeving visueel te inspecteren, waar van toepassing, of door gebruik te maken van de variabele env die al voor je is geladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.

Exercise 1: Basisprincipes van reinforcement learning Exercise 2: Wat is Reinforcement Learning?Exercise 3: RL vs. andere ML-subdomeinen Exercise 4: Scenario's voor het toepassen van RL Exercise 5: Navigeren door het RL-framework Exercise 6: RL-interactielus Exercise 7: Episodische en continue RL-taken Exercise 8: Gedisconteerde returns berekenen voor agentstrategieën Exercise 9: Interactie met Gymnasium-omgevingen Exercise 10: Een Mountain Car-omgeving opzetten Exercise 11: De Mountain Car-omgeving visualiseren Exercise 12: Interactie met de Frozen Lake-omgeving

Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.

Exercise 1: Markov-beslissingsprocessen Exercise 2: Aangepaste Frozen Lake-MDP-componenten

Huidige oefening

Exercise 3: Verkennen van toestand- en actieruimtes Exercise 4: Overgangswaarschijnlijkheden en beloningen Exercise 5: Policies en toestandswaardefuncties Exercise 6: Een deterministisch beleid definiëren Exercise 7: Toestandwaardes voor een policy berekenen Exercise 8: Beleid vergelijken Exercise 9: Actiewaardefuncties Exercise 10: Q-waarden berekenen Exercise 11: Een beleid verbeteren Exercise 12: Policy-iteratie en value-iteratie Exercise 13: Policy-iteratie toepassen voor een optimale policy Exercise 14: Value-iteratie implementeren

Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.

Exercise 1: Montecarlo-methoden Exercise 2: Episodes genereren voor Monte Carlo-methoden Exercise 3: First-visit Monte Carlo implementeren Exercise 4: Every-Visit Monte Carlo implementeren Exercise 5: Temporal-differentieleren Exercise 6: De SARSA-update regel implementeren Exercise 7: 8x8 Frozen Lake oplossen met SARSA Exercise 8: Q-learning Exercise 9: Q-learning-bijwerkregel implementeren Exercise 10: 8x8 Frozen Lake oplossen met Q-learning Exercise 11: Beleid evalueren op een glad Frozen Lake

Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.

Exercise 1: Expected SARSA Exercise 2: Expected SARSA-update-regel Exercise 3: Expected SARSA toepassen Exercise 4: Double Q-learning Exercise 5: Update-regel van Double Q-learning implementeren Exercise 6: Double Q-learning toepassen Exercise 7: Balans tussen exploratie en exploitatie Exercise 8: Epsilon-greedy-functie definiëren Exercise 9: CliffWalking oplossen met de epsilon-greedystrategie Exercise 10: CliffWalking oplossen met een afnemende epsilon-greedystrategie Exercise 11: Multi-armed bandits Exercise 12: Een multi-armed bandit maken Exercise 13: Een multi-armed bandit oplossen Exercise 14: Convergentie beoordelen in een multi-armed bandit Exercise 15: Gefeliciteerd!