Choisir la contamination

Même si l’implémentation en code tient en quelques lignes, déterminer une valeur de contamination adaptée demande de l’attention.

Rappelez-vous que le paramètre contamination n’affecte que les résultats d’IForst. Une fois qu’IForest a généré des scores d’anomalie bruts, contamination sert à sélectionner les n % de scores d’anomalie les plus élevés comme valeurs aberrantes. Par exemple, une contamination de 5 % choisira les observations présentant les 5 % de scores d’anomalie les plus élevés comme outliers.

Nous verrons des méthodes d’ajustement dans la vidéo suivante. Pour l’instant, vous allez vous exercer à fixer une valeur arbitraire pour ce paramètre.

Les données sont chargées dans big_mart.

Cet exercice fait partie du cours

<cours>Détection d’anomalies en Python</cours>

Voir le cours

Instructions de l’exercice

Instanciez un estimateur IForest() avec une contamination de 5 %.
Ajustez (fit) l’instance sur les données de ventes de Big Mart.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from pyod.models.iforest import IForest

# Instantiate an instance with 5% contamination
iforest = ____

# Fit IForest to Big Mart sales data
____

Modifier et exécuter le code