Choisir la contamination
Même si l’implémentation en code tient en quelques lignes, déterminer une valeur de contamination adaptée demande de l’attention.
Rappelez-vous que le paramètre contamination n’affecte que les résultats d’IForst. Une fois qu’IForest a généré des scores d’anomalie bruts, contamination sert à sélectionner les n % de scores d’anomalie les plus élevés comme valeurs aberrantes. Par exemple, une contamination de 5 % choisira les observations présentant les 5 % de scores d’anomalie les plus élevés comme outliers.
Nous verrons des méthodes d’ajustement dans la vidéo suivante. Pour l’instant, vous allez vous exercer à fixer une valeur arbitraire pour ce paramètre.
Les données sont chargées dans big_mart.
Cet exercice fait partie du cours
Détection d’anomalies en Python
Instructions
- Instanciez un estimateur
IForest()avec unecontaminationde 5 %. - Ajustez (fit) l’instance sur les données de ventes de Big Mart.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyod.models.iforest import IForest
# Instantiate an instance with 5% contamination
iforest = ____
# Fit IForest to Big Mart sales data
____