IniziaInizia gratis

Ciclo di interazione RL

Come ormai sai, la RL prevede che un agente prenda decisioni in un ambiente per massimizzare una nozione di ricompensa cumulativa. L'agente deve scoprire quali azioni producono la ricompensa maggiore tramite l'interazione.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio