Train-Test-Split

In diesem Kapitel arbeitest du weiter mit dem ANSUR-Datensatz. Bevor du ein Modell auf deinem Datensatz trainierst, solltest du festlegen, welches Merkmal du vorhersagen möchtest. In diesem Fall willst du das Geschlecht vorhersagen.

Dafür musst du die entsprechende Spalte aus dem Datensatz extrahieren und die Daten anschließend in Trainings- und Testmenge aufteilen. Die Trainingsmenge wird zum Trainieren des Modells verwendet, und die Testmenge dient dazu, die Leistung auf unbekannten Daten zu prüfen.

ansur_df wurde bereits für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Funktion train_test_split aus sklearn.model_selection.
Weise die Spalte 'Gender' y zu.
Entferne die Spalte 'Gender' aus dem DataFrame und weise das Ergebnis X zu.
Setze die Testgröße auf 30 %, um einen Split von 70 % Training und 30 % Test zu erhalten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")

Code bearbeiten und ausführen