Suddivisione train/test

Per valutare in modo oggettivo un modello di Machine Learning devi testarlo su un insieme di dati indipendente. Non puoi usare gli stessi dati con cui hai addestrato il modello: è ovvio che il modello si comporterà (relativamente) bene su quei dati!

Dividerai i dati in due componenti:

dati di training (usati per addestrare il modello) e
dati di test (usati per testare il modello).

Nota: D’ora in poi lavorerai con un sottoinsieme più piccolo dei dati sui voli, in modo da rendere gli esercizi più rapidi.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza corso

Istruzioni dell'esercizio

Suddividi casualmente i dati flights in due insiemi con proporzioni 80:20. Per rendere il risultato ripetibile, imposta il seme casuale a 43 per la suddivisione.
Verifica che i dati di training contengano circa l’80% dei record dei dati originali.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Modifica ed esegui il codice