Accuracy nach Dimensionsreduktion
Du reduzierst das Overfitting mithilfe von Dimensionsreduktion. In diesem Fall verwendest du eine ziemlich drastische Variante, indem du nur eine einzelne Spalte auswählst, die gute Informationen zur Unterscheidung zwischen Geschlechtern liefert. Du wiederholst den Train-Test-Split, das Fitten des Modells und die Vorhersage, um die Accuracy auf Test- gegenüber Trainingsdaten zu vergleichen.
Alle relevanten Pakete und y wurden bereits geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in Python
Anleitung zur Übung
- Wähle nur die Spalte für den Halsumfang (
'neckcircumferencebase') ausansur_dfaus. - Teile die Daten, instanziiere einen Klassifikator und fitte die Daten. Das wurde bereits für dich erledigt.
- Berechne erneut die Accuracy-Scores für Trainings- und Test-Set.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]
# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)
# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))
print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")