Gedisconteerde returns berekenen voor agentstrategieën

Gedisconteerde returns helpen je om de totale hoeveelheid beloningen te beoordelen die een agent in de loop van de tijd kan verwachten, waarbij je rekening houdt met het feit dat toekomstige beloningen minder waard zijn dan directe beloningen. Je krijgt de verwachte beloningen voor twee verschillende strategieën (exp_rewards_strategy_1 en exp_rewards_strategy_2) van een RL-agent. Aan jou de taak om voor elke strategie de gedisconteerde return te berekenen en te bepalen welke de hoogste return oplevert.

De bibliotheek numpy is al voor je geïmporteerd als np.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.

Exercise 1: Basisprincipes van reinforcement learning Exercise 2: Wat is Reinforcement Learning?Exercise 3: RL vs. andere ML-subdomeinen Exercise 4: Scenario's voor het toepassen van RL Exercise 5: Navigeren door het RL-framework Exercise 6: RL-interactielus Exercise 7: Episodische en continue RL-taken Exercise 8: Gedisconteerde returns berekenen voor agentstrategieën

Huidige oefening

Exercise 9: Interactie met Gymnasium-omgevingen Exercise 10: Een Mountain Car-omgeving opzetten Exercise 11: De Mountain Car-omgeving visualiseren Exercise 12: Interactie met de Frozen Lake-omgeving

Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.

Exercise 1: Markov-beslissingsprocessen Exercise 2: Aangepaste Frozen Lake-MDP-componenten Exercise 3: Verkennen van toestand- en actieruimtes Exercise 4: Overgangswaarschijnlijkheden en beloningen Exercise 5: Policies en toestandswaardefuncties Exercise 6: Een deterministisch beleid definiëren Exercise 7: Toestandwaardes voor een policy berekenen Exercise 8: Beleid vergelijken Exercise 9: Actiewaardefuncties Exercise 10: Q-waarden berekenen Exercise 11: Een beleid verbeteren Exercise 12: Policy-iteratie en value-iteratie Exercise 13: Policy-iteratie toepassen voor een optimale policy Exercise 14: Value-iteratie implementeren

Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.

Exercise 1: Montecarlo-methoden Exercise 2: Episodes genereren voor Monte Carlo-methoden Exercise 3: First-visit Monte Carlo implementeren Exercise 4: Every-Visit Monte Carlo implementeren Exercise 5: Temporal-differentieleren Exercise 6: De SARSA-update regel implementeren Exercise 7: 8x8 Frozen Lake oplossen met SARSA Exercise 8: Q-learning Exercise 9: Q-learning-bijwerkregel implementeren Exercise 10: 8x8 Frozen Lake oplossen met Q-learning Exercise 11: Beleid evalueren op een glad Frozen Lake

Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.

Exercise 1: Expected SARSA Exercise 2: Expected SARSA-update-regel Exercise 3: Expected SARSA toepassen Exercise 4: Double Q-learning Exercise 5: Update-regel van Double Q-learning implementeren Exercise 6: Double Q-learning toepassen Exercise 7: Balans tussen exploratie en exploitatie Exercise 8: Epsilon-greedy-functie definiëren Exercise 9: CliffWalking oplossen met de epsilon-greedystrategie Exercise 10: CliffWalking oplossen met een afnemende epsilon-greedystrategie Exercise 11: Multi-armed bandits Exercise 12: Een multi-armed bandit maken Exercise 13: Een multi-armed bandit oplossen Exercise 14: Convergentie beoordelen in een multi-armed bandit Exercise 15: Gefeliciteerd!