Train/test-split

Om een Machine Learning-model objectief te beoordelen, moet je het kunnen testen op een onafhankelijke gegevensset. Je kunt niet dezelfde data gebruiken als waarmee je het model trainde: natuurlijk presteert het model daarop (relatief) goed!

Je splitst de data in twee onderdelen:

trainingsdata (gebruikt om het model te trainen) en
testdata (gebruikt om het model te testen).

Opmerking: Vanaf hier werk je met een kleinere subset van de vluchtendata, zodat de oefeningen sneller draaien.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Bekijk cursus

Oefeninstructies

Splits de flights-data willekeurig in twee sets met een verhouding van 80:20. Stel voor reproduceerbaarheid de random seed voor de split in op 43.
Controleer dat de trainingsdata ongeveer 80% van de records uit de originele data bevat.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Code bewerken en uitvoeren