or
Questo esercizio fa parte del corso
Immergiti nel mondo del Reinforcement Learning (RL) esplorandone concetti, ruoli e applicazioni fondamentali. Muoviti all'interno del framework RL, scoprendo l'interazione agente-ambiente. Imparerai anche a usare la libreria Gymnasium per creare ambienti, visualizzare stati ed eseguire azioni, ottenendo così una base pratica nei concetti e nelle applicazioni dell'RL.
Approfondisci il mondo dell'RL concentrandoti sull'apprendimento basato su modello. Svela le complessità dei Markov Decision Processes (MDP), comprendendone i componenti essenziali. Potenzia le tue competenze imparando policy e funzioni di valore. Acquisisci esperienza nell'ottimizzazione delle policy con le tecniche di policy iteration e value iteration.
Intraprendi un viaggio nell'ambito dinamico dell'apprendimento senza modello nell'RL. Familiarizza con i metodi Monte Carlo di base e applica gli algoritmi di previsione Monte Carlo first-visit ed every-visit. Passa quindi al mondo del Temporal Difference Learning, esplorando l'algoritmo SARSA. Infine, immergiti nel Q-Learning e analizzane la convergenza in ambienti complessi.
Esercizio attuale
Esplora strategie avanzate nell'RL senza modello, con l'obiettivo di migliorare gli algoritmi decisionali. Scopri Expected SARSA per aggiornamenti di policy più accurati e Double Q-learning per ridurre il bias di sovrastima. Approfondisci il compromesso esplorazione-sfruttamento, padroneggiando le strategie epsilon-greedy ed epsilon-decay per una selezione ottimale delle azioni. Affronta il problema del Multi-Armed Bandit, applicando strategie per risolvere sfide decisionali in condizioni di incertezza.