Scelta di contamination
Anche se l'implementazione in codice richiede solo poche righe, trovare il valore di contamination più adatto richiede attenzione.
Ricorda che il parametro contamination influisce solo sui risultati di IForst. Una volta che IForest genera i punteggi grezzi di anomalia, contamination viene usato per selezionare il n% più alto dei punteggi di anomalia come outlier. Per esempio, una contamination del 5% sceglierà come outlier le osservazioni con il 5% più alto dei punteggi di anomalia.
Anche se nel prossimo video parleremo di alcune tecniche di tuning, per ora farai pratica impostando un valore arbitrario per il parametro.
I dati sono caricati come big_mart.
Questo esercizio fa parte del corso
Rilevamento delle anomalie in Python
Istruzioni dell'esercizio
- Istanzia un estimatore
IForest()concontaminational 5%. - Esegui il fit dell'istanza sui dati di vendita di Big Mart.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from pyod.models.iforest import IForest
# Instantiate an instance with 5% contamination
iforest = ____
# Fit IForest to Big Mart sales data
____