Zug/Test-Split
Um ein Machine Learning-Modell objektiv zu bewerten, musst du es an einem unabhängigen Datensatz testen können. Du kannst nicht dieselben Daten verwenden, die du zum Trainieren des Modells benutzt hast: Natürlich wird das Modell mit diesen Daten (relativ) gut abschneiden!
Du wirst die Daten in zwei Komponenten aufteilen:
- Trainingsdaten (die zum Trainieren des Modells verwendet werden) und
- Testdaten (die zum Testen des Modells verwendet werden).
Hinweis: Von nun an arbeitest du mit einer kleineren Teilmenge der Flugdaten, was die Übungen nur schneller macht.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Teile die Daten von
flights
nach dem Zufallsprinzip in zwei Gruppen mit einem Verhältnis von 80:20 auf. Um die Wiederholbarkeit zu gewährleisten, setze eine Zufallszahl von 43 für den Split. - Überprüfe, ob die Trainingsdaten etwa 80% der Datensätze aus den Originaldaten enthalten.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)