Trainieren/Testen aufteilen
Um ein Machine-Learning-Modell objektiv zu bewerten, musst du es an einem unabhängigen Datensatz testen können. Du kannst nicht dieselben Daten verwenden, mit denen du das Modell trainiert hast: Natürlich wird das Modell bei diesen Daten (relativ) gut funktionieren!
Du teilst die Daten in zwei Teile auf:
- Trainingsdaten (zum Trainieren des Modells) und
- Testdaten (zum Testen des Modells).
Hinweis: Ab jetzt arbeitest du mit einem kleineren Teil der Flugdaten, damit die Übungen schneller laufen.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Teile die Daten „
flights
“ einfach in zwei Gruppen mit einem Verhältnis von 80:20 auf. Um das Ganze wiederholen zu können, leg als Startwert für die Zufallszahl 43 fest. - Vergewissere dich, dass die Trainingsdaten ungefähr 80 % der Datensätze aus den Originaldaten haben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)