ComenzarEmpieza gratis

Cálculo de z-scores robustos

Volvamos a mirar el conjunto de datos transfers que usamos en el Capítulo 1. El conjunto contiene 222 transacciones y hay cuatro casos de fraude conocidos, señalados con un 1 en la variable fraud_flag. Ya hemos estudiado las variables de frecuencia y recencia. Esta vez nos centraremos solo en la variable amount e intentaremos detectar casos de fraude aplicando técnicas univariantes de detección de valores atípicos sobre esta variable.

No dudes en explorar el conjunto de datos en la Consola si necesitas refrescar su estructura. También puedes consultar las diapositivas para revisar las funciones que se mostraron en el vídeo anterior.

Este ejercicio forma parte del curso

Detección de fraude en R

Ver curso

Instrucciones del ejercicio

  • Averigua qué observaciones se identifican como fraude.
  • Calcula la mediana y la desviación mediana absoluta (mad) para la variable amount.
  • Usa las estimaciones robustas de localización y dispersión para calcular el z-score robusto de cada observación.
  • ¿Qué observaciones tienen un z-score robusto mayor que 3 en valor absoluto?

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Get observations identified as fraud
which(___ == ___)

# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)

# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))

# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)
Editar y ejecutar código