In dit hoofdstuk leer je hoe numerieke en grafische samenvattingen kunnen helpen om informeel te beoordelen of data ongewone punten bevatten. Je gebruikt een statistische procedure genaamd de toets van Grubbs om te controleren of een punt een uitschieter is, en je leert over het Seasonal-Hybrid ESD-algoritme, dat kan helpen uitschieters te identificeren wanneer de data een tijdreeks vormen.

Wat bedoelen we als we het over anomalieën hebben?

Anomalietypen herkennen

De riviernitraatgegevens verkennen

Extremen testen met de Grubbs-test

Visuele controle op normaliteit

Grubbs-test

Meerdere uitschieters opsporen met de Grubbs-toets

Afwijkingen in tijdreeksen

Visuele beoordeling van seizoenspatronen

Seasonal Hybrid ESD-algoritme

De output van Seasonal-Hybrid ESD interpreteren

Seasonal-Hybrid ESD versus Grubbs' test

Statistische detectie van uitschieters

In dit hoofdstuk leer je hoe je de k-nearest neighbors-afstand en de local outlier factor berekent, die worden gebruikt om continue anomaliescores te construeren voor elk datapunt wanneer de data meerdere kenmerken hebben. Je leert het verschil tussen lokale en globale anomalieën en hoe beide algoritmen in elk geval kunnen helpen.

k-nearest neighbors-afstandsscore

Wijn verkennen

kNN-afstandsmatrix

kNN-afstandsscore

kNN-afstand visualiseren

Features standaardiseren

De kNN-score toevoegen

kNN-afstandsscore visualiseren

Local outlier factor

LOF-berekening

LOF-visualisatie

LOF vs kNN

Afstands- en dichtheidsgebaseerde anomaliedetectie

k-nearest neighbors-afstand en local outlier factor gebruiken de afstand of relatieve dichtheid van de naaste buren om elk punt te scoren. In dit hoofdstuk verken je een alternatieve boomgebaseerde aanpak, een isolation forest, een snelle en robuuste methode om anomalieën te detecteren die meet hoe gemakkelijk punten kunnen worden gescheiden door de data willekeurig in steeds kleinere regio’s te splitsen.

Isolation trees

Fitten en voorspellen met een isolation tree

Score-interpretatie

Isolation forest

Een isolation forest fitten

Convergentie controleren

De isolatiescore visualiseren

Een raster van punten

Voorspelling over een raster

Anomaly-contouren

Je hebt nu kennisgemaakt met een paar verschillende algoritmen voor het toekennen van anomaliescores. In dit laatste hoofdstuk leer je de detectieprestaties van de algoritmen te vergelijken in situaties waarin gelabelde anomalieën beschikbaar zijn. Je leert de precisie- en recall-statistieken voor een anomaliescore te berekenen en interpreteren, en hoe je de algoritmen kunt aanpassen zodat ze data met categorische kenmerken aankunnen.

Gelabelde anomalieën

Schildkliergegevens

Schildklieraandoening visualiseren

Anomaliescore

Prestaties meten

Gebinariseerde scores

Kruistabelle van binaire scores

Precisie en recall voor schildklier

Werken met categorische kenmerken

Tekst naar factor omzetten

Isolation forest met factoren

LOF met factoren

Afronding

Prestaties vergelijken

Furniture

Wine

Thyroid

Maak je je zorgen over onjuiste of verdachte records in je data, maar weet je niet waar je moet beginnen? Een anomaliedetectie-algoritme kan helpen! Anomaliedetectie is een verzameling technieken die zijn ontwikkeld om ongewone datapunten te identificeren en is cruciaal voor het opsporen van fraude en het beschermen van computernetwerken tegen schadelijke activiteiten. In deze cursus verken je statistische toetsen om uitschieters te identificeren en leer je geavanceerde anomaliescore-algoritmen gebruiken, zoals de local outlier factor en de isolation forest. Je past anomaliedetectie toe om ongewone wijnen te vinden in de UCI Wine Quality-gegevensset en om gevallen van schildklieraandoeningen te detecteren op basis van afwijkende hormoonmetingen.

Intermediate R

Leer statistische tests voor het identificeren van uitschieters en gebruik geavanceerde algoritmen.

Introductie tot anomaliedetectie in R

Leer statistische tests om uitschieters te vinden en hoe je slimme algoritmes voor het scoren van afwijkingen kunt gebruiken. 

Afronding

Create Your Free Account