Je data plotten

Uit de vorige oefening weten we dat de verhouding tussen fraude- en niet-fraude-observaties erg laag is. Je kunt daar iets aan doen, bijvoorbeeld door je data opnieuw te bemonsteren (re-sampling), wat in de volgende video wordt uitgelegd.

In deze oefening kijk je eerst naar de data en visualiseer je de verhouding tussen fraude en niet-fraude. Het is altijd een goed startpunt in je fraudanalyse om eerst naar je data te kijken, voordat je er wijzigingen in aanbrengt.

Bovendien maakt een afbeelding in gesprekken met collega's vaak meteen duidelijk dat we te maken hebben met sterk onevenwichtige data. Laten we een plot maken om de verhouding tussen fraude- en niet-fraudedatapoints in de gegevensset df te visualiseren.

De functie prep_data() is al geladen in je werkruimte, net als matplotlib.pyplot als plt.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Definieer de functie plot_data(X, y), die de gegeven feature set X met labels y netjes in een scatterplot weergeeft. Dit is al voor je gedaan.
Gebruik de functie prep_data() op je gegevensset df om de feature set X en labels y te maken.
Voer de functie plot_data() uit op je nieuw verkregen X en y om je resultaten te visualiseren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
	plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
	plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
	plt.legend()
	return plt.show()

# Create X and y from the prep_data function 
X, y = prep_data(____)

# Plot our data by running our plot data function on X and y
____(X, y)

Code bewerken en uitvoeren