Statistisches Entfernen von Ausreißern

Das Entfernen der obersten N % deiner Daten ist zwar hilfreich, um sehr ungewöhnliche Punkte loszuwerden, hat aber den Nachteil, dass immer der gleiche Anteil an Punkten entfernt wird – selbst wenn die Daten korrekt sind. Eine häufig genutzte Alternative ist, Daten zu entfernen, die mehr als drei Standardabweichungen vom Mittelwert entfernt liegen. Das kannst du umsetzen, indem du zunächst Mittelwert und Standardabweichung der relevanten Spalte berechnest, daraus die oberen und unteren Grenzen bestimmst und diese Grenzen als Maske auf den DataFrame anwendest. Diese Methode stellt sicher, dass nur wirklich vom Rest abweichende Daten entfernt werden und entfernt weniger Punkte, wenn die Daten eng beieinander liegen.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Anleitung zur Übung

Berechne die Standardabweichung und den Mittelwert der Spalte ConvertedSalary von so_numeric_df.
Berechne die oberen und unteren Grenzen als drei Standardabweichungen Abstand vom Mittelwert in beide Richtungen.
Kürze den DataFrame so_numeric_df, sodass alle Zeilen erhalten bleiben, in denen ConvertedSalary innerhalb der Grenzen lower und upper liegt.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find the mean and standard dev
std = so_numeric_df['ConvertedSalary'].____
mean = so_numeric_df['ConvertedSalary'].____

# Calculate the cutoff
cut_off = std * 3
lower, upper = mean - cut_off, ____

# Trim the outliers
trimmed_df = so_numeric_df[(so_numeric_df['ConvertedSalary'] < ____) \ 
                           & (so_numeric_df['ConvertedSalary'] > ____)]

# The trimmed box plot
trimmed_df[['ConvertedSalary']].boxplot()
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, was Feature Engineering ist und wie du damit bei realen Daten loslegst. Du lädst, erkundest und visualisierst einen Datensatz mit Umfrageantworten und lernst dabei die zugrunde liegenden Datentypen kennen und warum sie beeinflussen, wie du deine Features entwickeln solltest. Mit dem Paket pandas erstellst du neue Features aus kategorialen und kontinuierlichen Spalten.

Exercise 1: Warum Features erstellen?Exercise 2: Lerne deinen Datensatz kennen Exercise 3: Bestimmte Datentypen auswählen Exercise 4: Umgang mit kategorialen Features Exercise 5: One-Hot-Encoding und Dummy-Variablen Exercise 6: Mit seltenen Kategorien umgehen Exercise 7: Numerische Variablen Exercise 8: Spalten binarisieren Exercise 9: Werte in Bins einteilen

Dieses Kapitel führt dich in die Realität unordentlicher und unvollständiger Daten ein. Du lernst, fehlende Werte in deinen Daten zu finden, und erkundest verschiedene Ansätze, wie du damit umgehst. Außerdem nutzt du String-Manipulationstechniken, um unerwünschte Zeichen in deinem Datensatz zu bereinigen.

Exercise 1: Warum gibt es fehlende Werte?Exercise 2: Wie lückenhaft sind meine Daten?Exercise 3: Fehlende Werte finden Exercise 4: Umgang mit fehlenden Werten (I)Exercise 5: Listweises Löschen Exercise 6: Fehlende Werte durch Konstanten ersetzen Exercise 7: Umgang mit fehlenden Werten (II)Exercise 8: Kontinuierliche fehlende Werte auffüllen Exercise 9: Werte in prädiktiven Modellen imputieren Exercise 10: Mit weiteren Datenproblemen umgehen Exercise 11: Umgang mit unerwünschten Zeichen (I)Exercise 12: Umgang mit Fremdzeichen (II)Exercise 13: Method Chaining

In diesem Kapitel konzentrierst du dich auf die Analyse der zugrunde liegenden Verteilung deiner Daten und darauf, ob sie sich auf deine Machine-Learning-Pipeline auswirkt. Du lernst, wie du mit schief verteilten Daten umgehst und mit Situationen, in denen Ausreißer deine Analyse negativ beeinflussen könnten.

Exercise 1: Datenverteilungen Exercise 2: Wie sehen deine Daten aus? (I)Exercise 3: Wie sehen deine Daten aus? (II)Exercise 4: Wann musst du deine Daten nicht transformieren?Exercise 5: Skalierung und Transformationen Exercise 6: Normalisierung Exercise 7: Standardisierung Exercise 8: Log-Transformation Exercise 9: Wann kannst du Normalisierung verwenden?Exercise 10: Ausreißer entfernen Exercise 11: Prozentbasierte Ausreißerentfernung Exercise 12: Statistisches Entfernen von Ausreißern

Aktuelle Übung

Exercise 13: Neue Daten skalieren und transformieren Exercise 14: Transformationen für Training und Test (I)Exercise 15: Transformationen für Training und Test (II)

Zum Schluss arbeitest du in diesem Kapitel mit unstrukturierten Textdaten und lernst, wie du daraus spaltenweise Features erzeugen kannst. Du vergleichst, wie sich unterschiedliche Ansätze darauf auswirken, wie viel Kontext aus einem Text extrahiert wird, und wie du den Bedarf an Kontext mit der Anzahl der erzeugten Features in Einklang bringst.

Exercise 1: Text encodieren Exercise 2: Deinen Text bereinigen Exercise 3: Textfeatures auf hoher Ebene Exercise 4: Worthäufigkeiten Exercise 5: Wörter zählen (I)Exercise 6: Wörter zählen (II)Exercise 7: Featureanzahl begrenzen Exercise 8: Text zu DataFrame Exercise 9: Termfrequenz–inverse Dokumentfrequenz Exercise 10: Tf-idf Exercise 11: Tf-idf-Werte untersuchen Exercise 12: Ungesehene Daten transformieren Exercise 13: N-Gramme Exercise 14: Längere n-Gramme verwenden Exercise 15: Die häufigsten Wörter finden Exercise 16: Zusammenfassung