Deine Daten plotten
Aus der vorherigen Übung wissen wir, dass das Verhältnis von Fraud- zu Non-Fraud-Beobachtungen sehr gering ist. Dagegen kannst du etwas tun, zum Beispiel indem du unsere Daten neu abtastest (Resampling) – das wird im nächsten Video erklärt.
In dieser Übung schaust du dir die Daten an und visualisierst das Verhältnis von Fraud zu Non-Fraud. Es ist immer ein guter Startpunkt in deiner Fraud-Analyse, dir zuerst die Daten anzusehen, bevor du Änderungen vornimmst.
Außerdem macht ein Bild im Gespräch mit Kolleginnen und Kollegen oft sehr deutlich, dass wir es mit stark unausgeglichenen Daten zu tun haben.
Erstelle einen Plot, um das Verhältnis von Fraud- zu Non-Fraud-Datenpunkten im Datensatz df zu visualisieren.
Die Funktion prep_data() ist bereits in deinem Workspace geladen, ebenso matplotlib.pyplot als plt.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
Definiere die Funktion
plot_data(X, y), die den gegebenen FeaturesatzXmit den Labelsyin einem Scatterplot ansprechend darstellt. Das wurde bereits für dich erledigt.Verwende die Funktion
prep_data()auf deinem Datensatzdf, um den FeaturesatzXund die Labelsyzu erzeugen.Führe die Funktion
plot_data()auf deinen neu erhaltenenXundyaus, um die Ergebnisse zu visualisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)