Suddivisione Train/Test
Per evitare l'overfitting, in Machine Learning è prassi comune suddividere i dati in insiemi di training e di test. Questo serve a garantire che il modello riesca a prevedere correttamente nuovi dati mai visti.
Poiché stiamo lavorando con serie temporali, non possiamo usare metodi di split casuali, perché permetterebbero al modello di "conoscere" il futuro.
È disponibile una funzione per stampare l'inizio e la fine di un DataFrame, show_start_end(), che accetta un DataFrame come unico argomento e restituisce una stringa.
I dati sono disponibili come environment.
Questo esercizio fa parte del corso
Analizzare i dati IoT in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define the split day
limit_day = ____
# Split the data
train_env = ____[____]
test_env = ____[____]