Zug/Test-Split

Um ein Machine Learning-Modell objektiv zu bewerten, musst du es an einem unabhängigen Datensatz testen können. Du kannst nicht dieselben Daten verwenden, die du zum Trainieren des Modells benutzt hast: Natürlich wird das Modell mit diesen Daten (relativ) gut abschneiden!

Du wirst die Daten in zwei Komponenten aufteilen:

Trainingsdaten (die zum Trainieren des Modells verwendet werden) und
Testdaten (die zum Testen des Modells verwendet werden).

Hinweis: Von nun an arbeitest du mit einer kleineren Teilmenge der Flugdaten, was die Übungen nur schneller macht.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Teile die Daten von flights nach dem Zufallsprinzip in zwei Gruppen mit einem Verhältnis von 80:20 auf. Um die Wiederholbarkeit zu gewährleisten, setze eine Zufallszahl von 43 für den Split.
Überprüfe, ob die Trainingsdaten etwa 80% der Datensätze aus den Originaldaten enthalten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Code bearbeiten und ausführen