Deine Daten plotten

Aus der vorherigen Übung wissen wir, dass das Verhältnis von Fraud- zu Non-Fraud-Beobachtungen sehr gering ist. Dagegen kannst du etwas tun, zum Beispiel indem du unsere Daten neu abtastest (Resampling) – das wird im nächsten Video erklärt.

In dieser Übung schaust du dir die Daten an und visualisierst das Verhältnis von Fraud zu Non-Fraud. Es ist immer ein guter Startpunkt in deiner Fraud-Analyse, dir zuerst die Daten anzusehen, bevor du Änderungen vornimmst.

Außerdem macht ein Bild im Gespräch mit Kolleginnen und Kollegen oft sehr deutlich, dass wir es mit stark unausgeglichenen Daten zu tun haben. Erstelle einen Plot, um das Verhältnis von Fraud- zu Non-Fraud-Datenpunkten im Datensatz df zu visualisieren.

Die Funktion prep_data() ist bereits in deinem Workspace geladen, ebenso matplotlib.pyplot als plt.

Diese Übung ist Teil des Kurses

<Kurs>Betrugserkennung mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Definiere die Funktion plot_data(X, y), die den gegebenen Featuresatz X mit den Labels y in einem Scatterplot ansprechend darstellt. Das wurde bereits für dich erledigt.
Verwende die Funktion prep_data() auf deinem Datensatz df, um den Featuresatz X und die Labels y zu erzeugen.
Führe die Funktion plot_data() auf deinen neu erhaltenen X und y aus, um die Ergebnisse zu visualisieren.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
	plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
	plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
	plt.legend()
	return plt.show()

# Create X and y from the prep_data function 
X, y = prep_data(____)

# Plot our data by running our plot data function on X and y
____(X, y)

Code bearbeiten und ausführen