CommencerCommencer gratuitement

Choisir la contamination

Même si l’implémentation en code tient en quelques lignes, déterminer une valeur de contamination adaptée demande de l’attention.

Rappelez-vous que le paramètre contamination n’affecte que les résultats d’IForst. Une fois qu’IForest a généré des scores d’anomalie bruts, contamination sert à sélectionner les n % de scores d’anomalie les plus élevés comme valeurs aberrantes. Par exemple, une contamination de 5 % choisira les observations présentant les 5 % de scores d’anomalie les plus élevés comme outliers.

Nous verrons des méthodes d’ajustement dans la vidéo suivante. Pour l’instant, vous allez vous exercer à fixer une valeur arbitraire pour ce paramètre.

Les données sont chargées dans big_mart.

Cet exercice fait partie du cours

Détection d’anomalies en Python

Afficher le cours

Instructions

  • Instanciez un estimateur IForest() avec une contamination de 5 %.
  • Ajustez (fit) l’instance sur les données de ventes de Big Mart.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyod.models.iforest import IForest

# Instantiate an instance with 5% contamination
iforest = ____

# Fit IForest to Big Mart sales data
____
Modifier et exécuter le code