Escolhendo a contaminação
Mesmo que a implementação em código tenha apenas algumas linhas, encontrar a contaminação adequada exige atenção.
Lembre-se de que o parâmetro contamination só afeta os resultados do IForst. Depois que o IForest gera os escores brutos de anomalia, contamination é usado para escolher o topo de n% desses escores como outliers. Por exemplo, contaminação de 5% vai selecionar as observações com os 5% mais altos de escores de anomalia como outliers.
Embora a gente vá discutir alguns métodos de ajuste no próximo vídeo, por enquanto você vai praticar definindo um valor arbitrário para o parâmetro.
Os dados estão carregados como big_mart.
Este exercício faz parte do curso
Detecção de Anomalias em Python
Instruções do exercício
- Instancie um estimador
IForest()comcontaminationde 5%. - Ajuste a instância aos dados de vendas do Big Mart.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyod.models.iforest import IForest
# Instantiate an instance with 5% contamination
iforest = ____
# Fit IForest to Big Mart sales data
____