Individuare outlier con gli z-score
La distribuzione normale è onnipresente nel mondo naturale ed è la più comune. Per questo il metodo dello z-score può essere uno dei modi più rapidi per rilevare gli outlier.
Ricorda la regola pratica dal video: se un campione è a più di tre deviazioni standard dalla media, puoi considerarlo un valore estremo.
Tieni però presente che il metodo dello z-score va usato con cautela. È adatto solo quando siamo sicuri che i dati provengano da una distribuzione normale; altrimenti i risultati potrebbero essere fuorvianti.
La distribuzione prices è già stata caricata per te.
Questo esercizio fa parte del corso
Rilevamento delle anomalie in Python
Istruzioni dell'esercizio
- Importa la funzione
zscoredal modulo pertinente discipy. - Calcola gli z-score di
pricese salvali inscores. - Crea una maschera booleana chiamata
is_over_3per verificare se i valori assoluti discoressono maggiori di 3. - Usa la maschera per filtrare in
pricesgli outlier.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the zscores function
from scipy.____ import ____
# Find the zscores of prices
scores = ____(____)
# Check if the absolute values of scores are over 3
is_over_3 = ____
# Use the mask to subset prices
outliers = ____[____]
print(len(outliers))