Ciclo di interazione RL
Come ormai sai, la RL prevede che un agente prenda decisioni in un ambiente per massimizzare una nozione di ricompensa cumulativa. L'agente deve scoprire quali azioni producono la ricompensa maggiore tramite l'interazione.
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio