or
Deze oefening maakt deel uit van de cursus
In dit hoofdstuk leer je hoe numerieke en grafische samenvattingen kunnen helpen om informeel te beoordelen of data ongewone punten bevatten. Je gebruikt een statistische procedure genaamd de toets van Grubbs om te controleren of een punt een uitschieter is, en je leert over het Seasonal-Hybrid ESD-algoritme, dat kan helpen uitschieters te identificeren wanneer de data een tijdreeks vormen.
In dit hoofdstuk leer je hoe je de k-nearest neighbors-afstand en de local outlier factor berekent, die worden gebruikt om continue anomaliescores te construeren voor elk datapunt wanneer de data meerdere kenmerken hebben. Je leert het verschil tussen lokale en globale anomalieën en hoe beide algoritmen in elk geval kunnen helpen.
k-nearest neighbors-afstand en local outlier factor gebruiken de afstand of relatieve dichtheid van de naaste buren om elk punt te scoren. In dit hoofdstuk verken je een alternatieve boomgebaseerde aanpak, een isolation forest, een snelle en robuuste methode om anomalieën te detecteren die meet hoe gemakkelijk punten kunnen worden gescheiden door de data willekeurig in steeds kleinere regio’s te splitsen.
Je hebt nu kennisgemaakt met een paar verschillende algoritmen voor het toekennen van anomaliescores. In dit laatste hoofdstuk leer je de detectieprestaties van de algoritmen te vergelijken in situaties waarin gelabelde anomalieën beschikbaar zijn. Je leert de precisie- en recall-statistieken voor een anomaliescore te berekenen en interpreteren, en hoe je de algoritmen kunt aanpassen zodat ze data met categorische kenmerken aankunnen.
Huidige oefening