Ausreißer mit z-Scores finden
Die Normalverteilung ist allgegenwärtig in der Natur und die häufigste Verteilung. Deshalb kann die z-Score-Methode eine der schnellsten Methoden sein, um Ausreißer zu erkennen.
Erinnere dich an die Faustregel aus dem Video: Wenn eine Stichprobe mehr als drei Standardabweichungen vom Mittelwert entfernt ist, kannst du sie als Extremwert betrachten.
Beachte jedoch auch, dass du die z-Score-Methode mit Vorsicht verwenden solltest. Diese Methode ist nur geeignet, wenn wir sicher sind, dass unsere Daten aus einer Normalverteilung stammen. Andernfalls können die Ergebnisse irreführend sein.
Die Verteilung prices wurde für dich geladen.
Diese Übung ist Teil des Kurses
Anomalieerkennung mit Python
Anleitung zur Übung
- Importiere die Funktion
zscoreaus dem entsprechendenscipy-Modul. - Ermittle die z-Scores von
pricesund speichere sie inscores. - Erstelle eine boolesche Maske namens
is_over_3, um zu prüfen, ob die Beträge vonscoresgrößer als 3 sind. - Verwende die Maske, um
pricesnach Ausreißern zu filtern.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the zscores function
from scipy.____ import ____
# Find the zscores of prices
scores = ____(____)
# Check if the absolute values of scores are over 3
is_over_3 = ____
# Use the mask to subset prices
outliers = ____[____]
print(len(outliers))