Reduzindo o grupo majoritário
Em vez de aumentar o número de casos de fraude no conjunto de dados, você pode remover aleatoriamente casos legítimos para balancear o conjunto. Vamos subamostrar a classe majoritária (Class = 0) no conjunto creditcard. Você pode usar table() no console para saber quantas transações fraudulentas e legítimas há no conjunto de dados.
Este exercício faz parte do curso
Detecção de Fraudes em R
Instruções do exercício
- Carregue a biblioteca ROSE.
- Especifique
n_newcomo o número necessário de casos no conjunto subamostrado, de forma que o novo conjunto contenha 40% de casos de fraude. Para isso, divida o número de casos de fraude pela porcentagem desejada de fraudes no conjunto subamostrado. - Faça a subamostragem do conjunto de dados.
- Use
table()eprop.table()para verificar o balanceamento de classes do conjunto subamostrado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load ROSE
___
# Calculate the required number of cases in the over-sampled dataset
n_new <- ___
# Under-sample
undersampling_result <- ___(formula = ___, data = ___,
___ = ___, ___ = ___, seed = 2018)
# Verify the Class-balance of the under-sampled dataset
undersampled_credit <- undersampling_result$___
___(___(___))