CommencerCommencer gratuitement

Détecter les valeurs aberrantes avec les z-scores

La loi normale est omniprésente dans le monde naturel et c'est la distribution la plus courante. C'est pourquoi la méthode du z-score peut être l’une des plus rapides pour détecter les valeurs aberrantes.

Rappelez-vous la règle pratique vue dans la vidéo : si un échantillon est à plus de trois écarts types de la moyenne, vous pouvez le considérer comme une valeur extrême.

Cependant, gardez aussi en tête que la méthode du z-score doit être utilisée avec prudence. Elle n’est pertinente que si vous êtes certain que vos données suivent une loi normale. Sinon, les résultats peuvent prêter à confusion.

La distribution prices a été chargée pour vous.

Cet exercice fait partie du cours

Détection d’anomalies en Python

Afficher le cours

Instructions

  • Importez la fonction zscore depuis le module approprié de scipy.
  • Calculez les z-scores de prices et stockez-les dans scores.
  • Créez un masque booléen nommé is_over_3 pour vérifier si les valeurs absolues de scores sont supérieures à 3.
  • Utilisez ce masque pour filtrer prices et obtenir les valeurs aberrantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the zscores function
from scipy.____ import ____

# Find the zscores of prices
scores = ____(____)

# Check if the absolute values of scores are over 3
is_over_3 = ____

# Use the mask to subset prices
outliers = ____[____]

print(len(outliers))
Modifier et exécuter le code