IniziaInizia gratis

Scelta di contamination

Anche se l'implementazione in codice richiede solo poche righe, trovare il valore di contamination più adatto richiede attenzione.

Ricorda che il parametro contamination influisce solo sui risultati di IForst. Una volta che IForest genera i punteggi grezzi di anomalia, contamination viene usato per selezionare il n% più alto dei punteggi di anomalia come outlier. Per esempio, una contamination del 5% sceglierà come outlier le osservazioni con il 5% più alto dei punteggi di anomalia.

Anche se nel prossimo video parleremo di alcune tecniche di tuning, per ora farai pratica impostando un valore arbitrario per il parametro.

I dati sono caricati come big_mart.

Questo esercizio fa parte del corso

Rilevamento delle anomalie in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Istanzia un estimatore IForest() con contamination al 5%.
  • Esegui il fit dell'istanza sui dati di vendita di Big Mart.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pyod.models.iforest import IForest

# Instantiate an instance with 5% contamination
iforest = ____

# Fit IForest to Big Mart sales data
____
Modifica ed esegui il codice