Riepilogo

Create Your Free Account

By continuing, you accept our Terms of Use, our Privacy Policy and that your data is stored in the USA.

Questo esercizio fa parte del corso

Introduzione all'Anomaly Detection in R

IntermediárioNível de habilidade

4.8+

In questo capitolo vedrai come i riepiloghi numerici e grafici possano essere usati per valutare in modo informale se i dati contengono punti insoliti. Userai una procedura statistica chiamata test di Grubbs per verificare se un punto è un outlier e conoscerai l'algoritmo Seasonal-Hybrid ESD, che può aiutare a individuare outlier quando i dati sono una serie temporale.

Exercise 1: Cosa intendiamo quando parliamo di anomalie?Exercise 2: Riconoscere i tipi di anomalie Exercise 3: Esplorare i dati sui nitrati del fiume Exercise 4: Mettere alla prova gli estremi con il test di Grubbs Exercise 5: Verifica visiva di normalità Exercise 6: Test di Grubbs Exercise 7: Caccia a più outlier con il test di Grubbs Exercise 8: Anomalie nelle serie temporali Exercise 9: Valutazione visiva della stagionalità Exercise 10: Algoritmo Seasonal Hybrid ESD Exercise 11: Interpretare l'output di Seasonal-Hybrid ESD Exercise 12: Seasonal-Hybrid ESD contro il test di Grubbs

In questo capitolo imparerai a calcolare la distanza dei k-nearest neighbors e il local outlier factor, utilizzati per costruire punteggi continui di anomalia per ciascun punto dati quando i dati hanno più caratteristiche. Capirai la differenza tra anomalie locali e globali e come i due algoritmi possano aiutare in ciascun caso.

Exercise 1: Punteggio della distanza k-nearest neighbors Exercise 2: Esplorare il vino Exercise 3: Matrice delle distanze kNN Exercise 4: Punteggio di distanza kNN Exercise 5: Visualizzare la distanza kNN Exercise 6: Standardizzare le feature Exercise 7: Aggiungere il punteggio kNN Exercise 8: Visualizzare il punteggio di distanza kNN Exercise 9: Fattore di anomalia locale Exercise 10: Calcolo del LOF Exercise 11: Visualizzazione LOF Exercise 12: LOF vs kNN

k-nearest neighbors distance e local outlier factor usano la distanza o la densità relativa dei vicini più prossimi per assegnare un punteggio a ciascun punto. In questo capitolo esplorerai un approccio alternativo basato su alberi chiamato isolation forest, un metodo rapido e robusto per rilevare anomalie che misura quanto facilmente i punti possano essere separati dividendo casualmente i dati in regioni via via più piccole.

Exercise 1: Alberi di isolamento Exercise 2: Esegui il fit e prevedi con un isolation tree Exercise 3: Interpretazione dei punteggi Exercise 4: Isolation forest Exercise 5: Adatta un isolation forest Exercise 6: Verifica della convergenza Exercise 7: Visualizzare l'isolation score Exercise 8: Una griglia di punti Exercise 9: Predizione su una griglia Exercise 10: Curve di anomalia

Ora hai conosciuto diversi algoritmi per il punteggio delle anomalie. In questo capitolo finale imparerai a confrontare le prestazioni di rilevamento degli algoritmi nei casi in cui siano disponibili anomalie etichettate. Imparerai a calcolare e interpretare le statistiche di precision e recall per un punteggio di anomalia e come adattare gli algoritmi per gestire dati con caratteristiche categoriche.

Exercise 1: Anomalie etichettate Exercise 2: Dati sulla tiroide Exercise 3: Visualizing thyroid disease Exercise 4: Punteggio di anomalia Exercise 5: Misurare le prestazioni Exercise 6: Punteggi binarizzati Exercise 7: Tabella a doppia entrata per punteggi binari Exercise 8: Precision e recall per la tiroide Exercise 9: Lavorare con le caratteristiche categoriche Exercise 10: Conversione da character a factor Exercise 11: Isolation forest con variabili categoriche Exercise 12: LOF con fattori Exercise 13: Riepilogo

Esercizio attuale