Robuste z-Scores berechnen
Schauen wir uns noch einmal den Datensatz transfers an, den wir in Kapitel 1 verwendet haben.
Der Datensatz enthält 222 Transaktionen und es gibt vier bekannte Betrugsfälle, gekennzeichnet durch eine 1 in der Variablen fraud_flag. Die Merkmale Frequenz und Aktualität haben wir bereits untersucht.
Diesmal konzentrieren wir uns nur auf die Variable amount und versuchen, Betrugsfälle zu erkennen, indem wir univariate Ausreißererkennungs-Techniken auf diese Variable anwenden.
Zögere nicht, den Datensatz in der Konsole zu erkunden, wenn du dein Gedächtnis zur Struktur auffrischen möchtest. Du kannst auch die Folien heranziehen, um die Funktionen nachzuschlagen, die im vorherigen Video gezeigt wurden.
Diese Übung ist Teil des Kurses
Fraud Detection in R
Anleitung zur Übung
- Finde heraus, welche Beobachtungen als Betrug identifiziert sind.
- Berechne den Median und die mediane absolute Abweichung (MAD) für die Variable
amount. - Verwende die robusten Schätzer für Lage und Streuung, um für jede Beobachtung den robusten z-Score zu berechnen.
- Welche Beobachtungen haben einen robusten z-Score mit einem Absolutwert größer als 3?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get observations identified as fraud
which(___ == ___)
# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)
# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))
# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)