ComenzarEmpieza gratis

Elegir la contaminación

Aunque la implementación en código ocupa pocas líneas, encontrar una contaminación adecuada requiere atención.

Recuerda que el parámetro contamination solo afecta a los resultados de IForest. Una vez que IForest genera las puntuaciones brutas de anomalía, contamination se usa para elegir el n% superior de puntuaciones de anomalía como outliers. Por ejemplo, una contaminación del 5% seleccionará como outliers las observaciones con el 5% más alto de puntuaciones de anomalía.

Aunque veremos algunos métodos de ajuste en el siguiente vídeo, por ahora practicarás fijando un valor arbitrario para el parámetro.

Los datos están cargados como big_mart.

Este ejercicio forma parte del curso

Detección de anomalías en Python

Ver curso

Instrucciones del ejercicio

  • Instancia un estimador IForest() con un contamination del 5%.
  • Ajusta la instancia a los datos de ventas de Big Mart.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from pyod.models.iforest import IForest

# Instantiate an instance with 5% contamination
iforest = ____

# Fit IForest to Big Mart sales data
____
Editar y ejecutar código