IniziaInizia gratis

Calcolo degli z-score robusti

Riguardiamo il dataset transfers che abbiamo usato nel Capitolo 1. Il dataset contiene 222 transazioni e ci sono quattro casi noti di frode, indicati con 1 nella variabile fraud_flag. Abbiamo già analizzato le feature di frequenza e recency. Questa volta ci concentreremo solo sulla variabile amount e proveremo a rilevare i casi di frode applicando tecniche univariate di individuazione degli outlier su questa variabile.

Se ti serve rinfrescare la memoria sulla sua struttura, esplora pure il dataset nella Console. Puoi anche fare riferimento alle diapositive per rivedere le funzioni mostrate nel video precedente.

Questo esercizio fa parte del corso

Rilevamento delle frodi in R

Visualizza il corso

Istruzioni dell'esercizio

  • Individua quali osservazioni sono identificate come frode.
  • Calcola la mediana e la deviazione assoluta mediana (mad) per la variabile amount.
  • Usa le stime robuste di posizione e dispersione per calcolare lo z-score robusto per ciascuna osservazione.
  • Quali osservazioni hanno uno z-score robusto superiore a 3 in valore assoluto?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Get observations identified as fraud
which(___ == ___)

# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)

# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))

# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)
Modifica ed esegui il codice