Umgang mit Ausreißern
In der letzten Übung hast du gesehen, wie hilfreich die Visualisierung von Ausreißern in einem Machine-Learning-Interview sein kann. Eine weitere praktische Methode zum Umgang mit Ausreißern ist die Berechnung des Z-Scores. Er setzt eine Schwelle für Ausreißer bei ungefähr +/- 3 Standardabweichungen vom Mittelwert.
In dieser Übung verwendest du das Modul scipy.stats, um den Z-Score mit der Funktion stats.zscore() zu berechnen, und die Funktion mstats.winsorize(), um Ausreißer mithilfe einer Technik namens Winsorisierung zu ersetzen.
Erinnere dich an das Video: Werte, die mehr als das 1,5-Fache der IQR über bzw. unter dem Quartilsbereich liegen, sollten als mögliche Ausreißer betrachtet werden. Für den letzten Schritt in dieser Übung beträgt dieser Wert 2120.
Die relevanten Pakete wurden für dich importiert, und die numerischen und kategorialen Spalten von loan_data wurden als numeric_cols bzw. categoric_cols separiert und gespeichert.

Diese Übung ist Teil des Kurses
ML-Vorstellungsgespräche in Python üben
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print: before dropping
print(numeric_cols.mean())
print(numeric_cols.median())
print(numeric_cols.max())
# Create index of rows to keep
idx = (np.____(stats.____(____)) < 3).all(axis=1)
# Concatenate numeric and categoric subsets
ld_out_drop = pd.concat([numeric_cols.loc[____], categoric_cols.loc[____]], axis=1)
# Print: after dropping
print(ld_out_drop.mean())
print(ld_out_drop.median())
print(ld_out_drop.max())