LoslegenKostenlos loslegen

Transformationen für Training und Test (II)

Ähnlich wie beim Anwenden desselben Scalers auf Trainings- und Testdaten solltest du, wenn du Ausreißer im Trainingsdatensatz entfernt hast, dies wahrscheinlich auch im Testdatensatz tun. Achte erneut darauf, dass du die nur aus dem Trainingsdatensatz berechneten Schwellenwerte verwendest, um Ausreißer aus dem Testdatensatz zu entfernen.

Wie in der letzten Übung teilen wir das DataFrame so_numeric_df in Trainings- (so_train_numeric) und Testdaten (so_test_numeric) auf.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Berechne die Standardabweichung und den Mittelwert der Spalte ConvertedSalary.
  • Berechne die oberen und unteren Grenzen als drei Standardabweichungen vom Mittelwert in beide Richtungen.
  • Schneide das DataFrame so_test_numeric so zu, dass alle Zeilen erhalten bleiben, in denen ConvertedSalary innerhalb der unteren und oberen Grenzen liegt.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Code bearbeiten und ausführen