Robuste z-Scores berechnen

Schauen wir uns noch einmal den Datensatz transfers an, den wir in Kapitel 1 verwendet haben. Der Datensatz enthält 222 Transaktionen und es gibt vier bekannte Betrugsfälle, gekennzeichnet durch eine 1 in der Variablen fraud_flag. Die Merkmale Frequenz und Aktualität haben wir bereits untersucht. Diesmal konzentrieren wir uns nur auf die Variable amount und versuchen, Betrugsfälle zu erkennen, indem wir univariate Ausreißererkennungs-Techniken auf diese Variable anwenden.

Zögere nicht, den Datensatz in der Konsole zu erkunden, wenn du dein Gedächtnis zur Struktur auffrischen möchtest. Du kannst auch die Folien heranziehen, um die Funktionen nachzuschlagen, die im vorherigen Video gezeigt wurden.

Diese Übung ist Teil des Kurses

Fraud Detection in R

Kurs anzeigen

Anleitung zur Übung

Finde heraus, welche Beobachtungen als Betrug identifiziert sind.
Berechne den Median und die mediane absolute Abweichung (MAD) für die Variable amount.
Verwende die robusten Schätzer für Lage und Streuung, um für jede Beobachtung den robusten z-Score zu berechnen.
Welche Beobachtungen haben einen robusten z-Score mit einem Absolutwert größer als 3?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Get observations identified as fraud
which(___ == ___)

# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)

# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))

# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)

Code bearbeiten und ausführen