Detectar valores atípicos con z-scores
La distribución normal es omnipresente en la naturaleza y es la más común. Por eso, el método del z-score puede ser de los más rápidos para detectar valores atípicos.
Recuerda la regla práctica del vídeo: si una muestra está a más de tres desviaciones estándar de la media, puedes considerarla un valor extremo.
Ahora bien, ten en cuenta que el método del z-score debe usarse con cautela. Solo es apropiado cuando estamos seguros de que nuestros datos proceden de una distribución normal. En caso contrario, los resultados pueden ser engañosos.
La distribución prices ya está cargada para ti.
Este ejercicio forma parte del curso
Detección de anomalías en Python
Instrucciones del ejercicio
- Importa la función
zscoredel módulo correspondiente descipy. - Calcula los z-scores de
pricesy guárdalos enscores. - Crea una máscara booleana llamada
is_over_3para comprobar si los valores absolutos descoresson mayores que 3. - Usa la máscara para filtrar
pricesy obtener los valores atípicos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the zscores function
from scipy.____ import ____
# Find the zscores of prices
scores = ____(____)
# Check if the absolute values of scores are over 3
is_over_3 = ____
# Use the mask to subset prices
outliers = ____[____]
print(len(outliers))