LoslegenKostenlos loslegen

Zug/Test-Split

Um ein Machine Learning-Modell objektiv zu bewerten, musst du es an einem unabhängigen Datensatz testen können. Du kannst nicht dieselben Daten verwenden, die du zum Trainieren des Modells benutzt hast: Natürlich wird das Modell mit diesen Daten (relativ) gut abschneiden!

Du wirst die Daten in zwei Komponenten aufteilen:

  • Trainingsdaten (die zum Trainieren des Modells verwendet werden) und
  • Testdaten (die zum Testen des Modells verwendet werden).

Hinweis: Von nun an arbeitest du mit einer kleineren Teilmenge der Flugdaten, was die Übungen nur schneller macht.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Teile die Daten von flights nach dem Zufallsprinzip in zwei Gruppen mit einem Verhältnis von 80:20 auf. Um die Wiederholbarkeit zu gewährleisten, setze eine Zufallszahl von 43 für den Split.
  • Überprüfe, ob die Trainingsdaten etwa 80% der Datensätze aus den Originaldaten enthalten.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Code bearbeiten und ausführen