Inizia subitoInizia gratis

Ciclo di interazione RL

Come ormai sai, la RL prevede che un agente prenda decisioni in un ambiente per massimizzare una nozione di ricompensa cumulativa. L'agente deve scoprire quali azioni producono la ricompensa maggiore tramite l'interazione.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

esercizio interattivo pratico

Trasforma la teoria in pratica con uno dei nostri esercizi interattivi

Inizia esercizio