Plotando seus dados

No exercício anterior, vimos que a proporção de observações de fraude para não fraude é muito baixa. Você pode agir sobre isso, por exemplo, reestruturando a amostragem (re-sampling) dos seus dados, como será explicado no próximo vídeo.

Neste exercício, você vai observar os dados e visualizar a proporção entre fraude e não fraude. Em análises de fraude, é sempre um bom ponto de partida olhar para os dados antes de fazer qualquer alteração.

Além disso, ao conversar com colegas, um gráfico costuma deixar claro que estamos lidando com um conjunto de dados fortemente desbalanceado. Vamos criar um gráfico para visualizar a proporção de pontos de dados de fraude e não fraude no conjunto df.

A função prep_data() já está carregada no seu ambiente, assim como matplotlib.pyplot como plt.

Este exercicio faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercicio

Defina a função plot_data(X, y), que vai exibir em um diagrama de dispersão o conjunto de atributos X com os rótulos y. Isso já foi feito para você.
Use a função prep_data() no seu conjunto df para criar o conjunto de atributos X e os rótulos y.
Execute a função plot_data() nos X e y recém-obtidos para visualizar seus resultados.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
	plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
	plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
	plt.legend()
	return plt.show()

# Create X and y from the prep_data function 
X, y = prep_data(____)

# Plot our data by running our plot data function on X and y
____(X, y)

Editar e Executar Código