Compare o SMOTE com os dados originais
No último exercício, você viu que usar SMOTE de repente nos dá mais observações da classe minoritária. Vamos comparar esses resultados com nossos dados originais para entender bem o que de fato aconteceu. Vamos olhar novamente as contagens de valores dos nossos dados antigos e novos e vamos plotar dois gráficos de dispersão lado a lado. Você vai usar a função predefinida compare_plot() para isso, que recebe os seguintes argumentos: X, y, X_resampled, y_resampled, method=''. A função plota seus dados originais em um gráfico de dispersão, junto com os dados reamostrados, lado a lado.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Imprima as contagens de valores dos rótulos originais,
y. Note queyatualmente é um array Numpy, então, para usar value counts, vamos atribuiryde volta como um objeto Series do pandas. - Repita o passo e imprima as contagens de valores em
y_resampled. Isso mostra como o balanceamento entre as duas classes mudou com o SMOTE. - Use a função predefinida
compare_plot()chamada nos nossos dados originais e também nos dados reamostrados para ver os gráficos de dispersão lado a lado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')