Détecter les valeurs aberrantes avec les z-scores
La loi normale est omniprésente dans le monde naturel et c'est la distribution la plus courante. C'est pourquoi la méthode du z-score peut être l’une des plus rapides pour détecter les valeurs aberrantes.
Rappelez-vous la règle pratique vue dans la vidéo : si un échantillon est à plus de trois écarts types de la moyenne, vous pouvez le considérer comme une valeur extrême.
Cependant, gardez aussi en tête que la méthode du z-score doit être utilisée avec prudence. Elle n’est pertinente que si vous êtes certain que vos données suivent une loi normale. Sinon, les résultats peuvent prêter à confusion.
La distribution prices a été chargée pour vous.
Cet exercice fait partie du cours
Détection d’anomalies en Python
Instructions
- Importez la fonction
zscoredepuis le module approprié descipy. - Calculez les z-scores de
priceset stockez-les dansscores. - Créez un masque booléen nommé
is_over_3pour vérifier si les valeurs absolues descoressont supérieures à 3. - Utilisez ce masque pour filtrer
priceset obtenir les valeurs aberrantes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the zscores function
from scipy.____ import ____
# Find the zscores of prices
scores = ____(____)
# Check if the absolute values of scores are over 3
is_over_3 = ____
# Use the mask to subset prices
outliers = ____[____]
print(len(outliers))