Encontrando outliers com z-scores
A distribuição normal é onipresente no mundo natural e é a mais comum. Por isso, o método do z-score pode ser um dos mais rápidos para detectar outliers.
Lembre-se da regra prática do vídeo: se uma amostra estiver a mais de três desvios-padrão da média, você pode considerá-la um valor extremo.
Mas lembre também que o método do z-score deve ser usado com cautela. Ele só é apropriado quando temos confiança de que os dados vêm de uma distribuição normal. Caso contrário, os resultados podem ser enganosos.
A distribuição prices já foi carregada para você.
Este exercício faz parte do curso
Detecção de Anomalias em Python
Instruções do exercício
- Importe a função
zscoredo módulo apropriado doscipy. - Calcule os z-scores de
pricese armazene emscores. - Crie uma máscara booleana chamada
is_over_3para verificar se os valores absolutos descoressão maiores que 3. - Use a máscara para filtrar os outliers em
prices.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the zscores function
from scipy.____ import ____
# Find the zscores of prices
scores = ____(____)
# Check if the absolute values of scores are over 3
is_over_3 = ____
# Use the mask to subset prices
outliers = ____[____]
print(len(outliers))