LoslegenKostenlos loslegen

Trainieren/Testen aufteilen

Um ein Machine-Learning-Modell objektiv zu bewerten, musst du es an einem unabhängigen Datensatz testen können. Du kannst nicht dieselben Daten verwenden, mit denen du das Modell trainiert hast: Natürlich wird das Modell bei diesen Daten (relativ) gut funktionieren!

Du teilst die Daten in zwei Teile auf:

  • Trainingsdaten (zum Trainieren des Modells) und
  • Testdaten (zum Testen des Modells).

Hinweis: Ab jetzt arbeitest du mit einem kleineren Teil der Flugdaten, damit die Übungen schneller laufen.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Teile die Daten „ flights “ einfach in zwei Gruppen mit einem Verhältnis von 80:20 auf. Um das Ganze wiederholen zu können, leg als Startwert für die Zufallszahl 43 fest.
  • Vergewissere dich, dass die Trainingsdaten ungefähr 80 % der Datensätze aus den Originaldaten haben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Code bearbeiten und ausführen