Plotando seus dados
No exercício anterior, vimos que a proporção de observações de fraude para não fraude é muito baixa. Você pode agir sobre isso, por exemplo, reestruturando a amostragem (re-sampling) dos seus dados, como será explicado no próximo vídeo.
Neste exercício, você vai observar os dados e visualizar a proporção entre fraude e não fraude. Em análises de fraude, é sempre um bom ponto de partida olhar para os dados antes de fazer qualquer alteração.
Além disso, ao conversar com colegas, um gráfico costuma deixar claro que estamos lidando com um conjunto de dados fortemente desbalanceado.
Vamos criar um gráfico para visualizar a proporção de pontos de dados de fraude e não fraude no conjunto df.
A função prep_data() já está carregada no seu ambiente, assim como matplotlib.pyplot como plt.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
Defina a função
plot_data(X, y), que vai exibir em um diagrama de dispersão o conjunto de atributosXcom os rótulosy. Isso já foi feito para você.Use a função
prep_data()no seu conjuntodfpara criar o conjunto de atributosXe os rótulosy.Execute a função
plot_data()nosXeyrecém-obtidos para visualizar seus resultados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)