or
Deze oefening maakt deel uit van de cursus
Duik in de boeiende wereld van Reinforcement Learning (RL) en verken de basisbegrippen, rollen en toepassingen. Navigeer door het RL-raamwerk en ontdek de interactie tussen agent en omgeving. Je leert ook hoe je de Gymnasium-bibliotheek gebruikt om omgevingen te maken, toestanden te visualiseren en acties uit te voeren, zodat je een praktische basis krijgt in RL-concepten en toepassingen.
Verdiep je verder in RL met de focus op modelgebaseerd leren. Ontwar de complexiteit van Markov-beslissingsprocessen (MDP’s) en begrijp hun essentiële componenten. Breid je vaardigheden uit met kennis over policies en waarde-functies. Krijg expertise in policy-optimalisatie met policy-iteratie en value-iteratie technieken.
Maak een reis door het dynamische domein van modelfrij leren in RL. Maak kennis met de basis van Monte Carlo-methoden en pas first-visit en every-visit Monte Carlo-voorspellingsalgoritmen toe. Stap over naar Temporal Difference Learning en verken het SARSA-algoritme. Duik tot slot in Q-learning en analyseer de convergentie in uitdagende omgevingen.
Huidige oefening
Duik in geavanceerde strategieën binnen modelfrij RL, met de focus op het verbeteren van besluitvormingsalgoritmen. Leer over Expected SARSA voor nauwkeurigere policy-updates en Double Q-learning om overschatting te verminderen. Verken de exploration-exploitation trade-off en beheers epsilon-greedy en epsilon-decay strategieën voor optimale actieselectie. Pak het multi-armed bandit-probleem aan en pas strategieën toe om beslissingen te nemen onder onzekerheid.