ComeçarComece de graça

Compare o SMOTE com os dados originais

No último exercício, você viu que usar SMOTE de repente nos dá mais observações da classe minoritária. Vamos comparar esses resultados com nossos dados originais para entender bem o que de fato aconteceu. Vamos olhar novamente as contagens de valores dos nossos dados antigos e novos e vamos plotar dois gráficos de dispersão lado a lado. Você vai usar a função predefinida compare_plot() para isso, que recebe os seguintes argumentos: X, y, X_resampled, y_resampled, method=''. A função plota seus dados originais em um gráfico de dispersão, junto com os dados reamostrados, lado a lado.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

  • Imprima as contagens de valores dos rótulos originais, y. Note que y atualmente é um array Numpy, então, para usar value counts, vamos atribuir y de volta como um objeto Series do pandas.
  • Repita o passo e imprima as contagens de valores em y_resampled. Isso mostra como o balanceamento entre as duas classes mudou com o SMOTE.
  • Use a função predefinida compare_plot() chamada nos nossos dados originais e também nos dados reamostrados para ver os gráficos de dispersão lado a lado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')
Editar e executar o código