Aan de slagGa gratis aan de slag

Train/test-split

Om een Machine Learning-model objectief te beoordelen, moet je het kunnen testen op een onafhankelijke gegevensset. Je kunt niet dezelfde data gebruiken als waarmee je het model trainde: natuurlijk presteert het model daarop (relatief) goed!

Je splitst de data in twee onderdelen:

  • trainingsdata (gebruikt om het model te trainen) en
  • testdata (gebruikt om het model te testen).

Opmerking: Vanaf hier werk je met een kleinere subset van de vluchtendata, zodat de oefeningen sneller draaien.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Splits de flights-data willekeurig in twee sets met een verhouding van 80:20. Stel voor reproduceerbaarheid de random seed voor de split in op 43.
  • Controleer dat de trainingsdata ongeveer 80% van de records uit de originele data bevat.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Code bewerken en uitvoeren