Elegir la contaminación
Aunque la implementación en código ocupa pocas líneas, encontrar una contaminación adecuada requiere atención.
Recuerda que el parámetro contamination solo afecta a los resultados de IForest. Una vez que IForest genera las puntuaciones brutas de anomalía, contamination se usa para elegir el n% superior de puntuaciones de anomalía como outliers. Por ejemplo, una contaminación del 5% seleccionará como outliers las observaciones con el 5% más alto de puntuaciones de anomalía.
Aunque veremos algunos métodos de ajuste en el siguiente vídeo, por ahora practicarás fijando un valor arbitrario para el parámetro.
Los datos están cargados como big_mart.
Este ejercicio forma parte del curso
Detección de anomalías en Python
Instrucciones del ejercicio
- Instancia un estimador
IForest()con uncontaminationdel 5%. - Ajusta la instancia a los datos de ventas de Big Mart.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from pyod.models.iforest import IForest
# Instantiate an instance with 5% contamination
iforest = ____
# Fit IForest to Big Mart sales data
____