Je data plotten
Uit de vorige oefening weten we dat de verhouding tussen fraude- en niet-fraude-observaties erg laag is. Je kunt daar iets aan doen, bijvoorbeeld door je data opnieuw te bemonsteren (re-sampling), wat in de volgende video wordt uitgelegd.
In deze oefening kijk je eerst naar de data en visualiseer je de verhouding tussen fraude en niet-fraude. Het is altijd een goed startpunt in je fraudanalyse om eerst naar je data te kijken, voordat je er wijzigingen in aanbrengt.
Bovendien maakt een afbeelding in gesprekken met collega's vaak meteen duidelijk dat we te maken hebben met sterk onevenwichtige data.
Laten we een plot maken om de verhouding tussen fraude- en niet-fraudedatapoints in de gegevensset df te visualiseren.
De functie prep_data() is al geladen in je werkruimte, net als matplotlib.pyplot als plt.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
Definieer de functie
plot_data(X, y), die de gegeven feature setXmet labelsynetjes in een scatterplot weergeeft. Dit is al voor je gedaan.Gebruik de functie
prep_data()op je gegevenssetdfom de feature setXen labelsyte maken.Voer de functie
plot_data()uit op je nieuw verkregenXenyom je resultaten te visualiseren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)