Train-Test-Split
In diesem Kapitel arbeitest du weiter mit dem ANSUR-Datensatz. Bevor du ein Modell auf deinem Datensatz trainierst, solltest du festlegen, welches Merkmal du vorhersagen möchtest. In diesem Fall willst du das Geschlecht vorhersagen.
Dafür musst du die entsprechende Spalte aus dem Datensatz extrahieren und die Daten anschließend in Trainings- und Testmenge aufteilen. Die Trainingsmenge wird zum Trainieren des Modells verwendet, und die Testmenge dient dazu, die Leistung auf unbekannten Daten zu prüfen.
ansur_df wurde bereits für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in Python
Anleitung zur Übung
- Importiere die Funktion
train_test_splitaussklearn.model_selection. - Weise die Spalte
'Gender'yzu. - Entferne die Spalte
'Gender'aus dem DataFrame und weise das ErgebnisXzu. - Setze die Testgröße auf 30 %, um einen Split von 70 % Training und 30 % Test zu erhalten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")