ComeçarComece de graça

Calculando z-scores robustos

Vamos analisar novamente o conjunto de dados transfers que usamos no Capítulo 1. O conjunto de dados contém 222 transações e há quatro casos de fraude conhecidos, indicados com 1 na variável fraud_flag. Já estudamos as variáveis de frequência e recência antes. Desta vez, vamos focar apenas na variável amount e tentar detectar casos de fraude aplicando técnicas univariadas de detecção de outliers nessa variável.

Se precisar relembrar a estrutura do conjunto de dados, fique à vontade para explorá-lo no Console. Você também pode consultar os slides para revisar as funções que apareceram no vídeo anterior.

Este exercício faz parte do curso

Detecção de Fraudes em R

Ver curso

Instruções do exercício

  • Descubra quais observações são identificadas como fraude.
  • Calcule a mediana e o desvio absoluto mediano (mad) para a variável amount.
  • Use as estimativas robustas de posição e dispersão para calcular o z-score robusto de cada observação.
  • Quais observações têm z-score robusto maior que 3 em valor absoluto?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Get observations identified as fraud
which(___ == ___)

# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)

# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))

# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)
Editar e executar o código