Aplicando SMOTE
Neste exercício, você vai reequilibrar os dados usando a Synthetic Minority Over-sampling Technique (SMOTE). Diferente do ROS, o SMOTE não cria cópias exatas das observações, mas gera novas amostras sintéticas que são bem semelhantes às observações existentes na classe minoritária. Por isso, o SMOTE é um pouco mais sofisticado do que apenas copiar observações. Vamos aplicar o SMOTE aos nossos dados de cartão de crédito.
O conjunto de dados df está disponível e os pacotes necessários para o SMOTE já foram importados. No exercício seguinte, você vai visualizar o resultado e compará-lo com os dados originais para ver com clareza o efeito de aplicar o SMOTE.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Use a função
prep_dataemdfpara criar as featuresXe os rótulosy. - Defina o método de reamostragem como o SMOTE padrão, na variável
method. - Use
.fit_resample()nosXeyoriginais para obter os novos dados reamostrados. - Plote os dados reamostrados usando a função
plot_data().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from imblearn.over_sampling import SMOTE
# Run the prep_data function
X, y = ____(df)
# Define the resampling method
method = ____()
# Create the resampled feature set
X_resampled, y_resampled = method.____(____, ____)
# Plot the resampled data
plot_data(____, ____)