Calculando z-scores robustos
Vamos analisar novamente o conjunto de dados transfers que usamos no Capítulo 1.
O conjunto de dados contém 222 transações e há quatro casos de fraude conhecidos, indicados com 1 na variável fraud_flag. Já estudamos as variáveis de frequência e recência antes.
Desta vez, vamos focar apenas na variável amount e tentar detectar casos de fraude aplicando técnicas univariadas de detecção de outliers nessa variável.
Se precisar relembrar a estrutura do conjunto de dados, fique à vontade para explorá-lo no Console. Você também pode consultar os slides para revisar as funções que apareceram no vídeo anterior.
Este exercício faz parte do curso
Detecção de Fraudes em R
Instruções do exercício
- Descubra quais observações são identificadas como fraude.
- Calcule a mediana e o desvio absoluto mediano (mad) para a variável
amount. - Use as estimativas robustas de posição e dispersão para calcular o z-score robusto de cada observação.
- Quais observações têm z-score robusto maior que 3 em valor absoluto?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Get observations identified as fraud
which(___ == ___)
# Compute median and mean absolute deviation for `amount`
m <- median(___)
s <- ___(___)
# Compute robust z-score for each observation
robzscore <- abs((___ - ___) / (___))
# Get observations with robust z-score higher than 3 in absolute value
which(abs(___) > ___)