Train/test-split
Om een Machine Learning-model objectief te beoordelen, moet je het kunnen testen op een onafhankelijke gegevensset. Je kunt niet dezelfde data gebruiken als waarmee je het model trainde: natuurlijk presteert het model daarop (relatief) goed!
Je splitst de data in twee onderdelen:
- trainingsdata (gebruikt om het model te trainen) en
- testdata (gebruikt om het model te testen).
Opmerking: Vanaf hier werk je met een kleinere subset van de vluchtendata, zodat de oefeningen sneller draaien.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Splits de
flights-data willekeurig in twee sets met een verhouding van 80:20. Stel voor reproduceerbaarheid de random seed voor de split in op 43. - Controleer dat de trainingsdata ongeveer 80% van de records uit de originele data bevat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)