Suddivisione train/test
Per valutare in modo oggettivo un modello di Machine Learning devi testarlo su un insieme di dati indipendente. Non puoi usare gli stessi dati con cui hai addestrato il modello: è ovvio che il modello si comporterà (relativamente) bene su quei dati!
Dividerai i dati in due componenti:
- dati di training (usati per addestrare il modello) e
- dati di test (usati per testare il modello).
Nota: D’ora in poi lavorerai con un sottoinsieme più piccolo dei dati sui voli, in modo da rendere gli esercizi più rapidi.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Suddividi casualmente i dati
flightsin due insiemi con proporzioni 80:20. Per rendere il risultato ripetibile, imposta il seme casuale a 43 per la suddivisione. - Verifica che i dati di training contengano circa l’80% dei record dei dati originali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)