Visualizando padrões nos dados
O primeiro passo antes de começar a modelar é explorar seus dados. Vamos começar examinando seu conjunto de dados e visualizando diferentes padrões entre amostras fraudulentas e regulares. De forma excepcional, você vai montar a visualização!
O conjunto de dados transfers contém transferências de crédito e algumas foram registradas como fraude. A coluna fraud_flag indica se a transação é fraudulenta (fraud_flag = 1) ou não (fraud_flag = 0). Esse conjunto de dados e o pacote ggplot2 já estão carregados no seu ambiente de trabalho.
Este exercício faz parte do curso
Detecção de Fraudes em R
Instruções do exercício
- Plote a coluna
amountcomo variável independente no eixo x e a colunaorig_balance_before, que é o saldo na conta do originador antes do lançamento da transferência, como variável dependente no eixo y. - Defina a cor e o formato dos pontos com base no valor da coluna
fraud_flag.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Make a scatter plot
ggplot(transfers, aes(x = ___, y = ___)) +
geom_point(aes(color = ___, shape = ___)) +
scale_color_manual(values = c('dodgerblue', 'red'))