IniziaInizia gratis

Suddivisione Train/Test

Per evitare l'overfitting, in Machine Learning è prassi comune suddividere i dati in insiemi di training e di test. Questo serve a garantire che il modello riesca a prevedere correttamente nuovi dati mai visti.

Poiché stiamo lavorando con serie temporali, non possiamo usare metodi di split casuali, perché permetterebbero al modello di "conoscere" il futuro.

È disponibile una funzione per stampare l'inizio e la fine di un DataFrame, show_start_end(), che accetta un DataFrame come unico argomento e restituisce una stringa.

I dati sono disponibili come environment.

Questo esercizio fa parte del corso

Analizzare i dati IoT in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Define the split day
limit_day = ____

# Split the data
train_env = ____[____]
test_env = ____[____]
Modifica ed esegui il codice