Überprüfung des Verhältnisses von Betrug zu Nicht-Betrug

In diesem Kapitel arbeitest du mit creditcard_sampledata.csv, einem Datensatz mit Kreditkartentransaktionen. Betrugsfälle sind in diesen Transaktionen zum Glück eine extreme Minderheit.

Machine-Learning-Algorithmen funktionieren jedoch meist am besten, wenn die verschiedenen Klassen im Datensatz mehr oder weniger gleich stark vertreten sind. Wenn es nur wenige Betrugsfälle gibt, gibt es wenig Daten, aus denen das Erkennen gelernt werden kann. Das nennt man Klassenungleichgewicht und es ist eine der größten Herausforderungen in der Betrugserkennung.

Lass uns diesen Datensatz erkunden und uns dieses Problem des Klassenungleichgewichts ansehen.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

Importiere pandas als pd, lies die Kreditkartendaten ein und weise sie df zu. Das wurde bereits für dich erledigt.
Verwende .info(), um Informationen über df auszugeben.
Verwende .value_counts(), um die Anzahl betrügerischer und nicht-betrügerischer Transaktionen in der Spalte 'Class' zu erhalten. Weise das Ergebnis occ zu.
Ermittle den Anteil der betrügerischen Transaktionen an der Gesamtzahl der Transaktionen im Datensatz.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import pandas and read csv
import pandas as pd
df = pd.read_csv("creditcard_data.csv")

# Explore the features available in your dataframe
print(df.____)

# Count the occurrences of fraud and no fraud and print them
occ = df['____'].____()
print(occ)

# Print the ratio of fraud cases
print(occ / ____)

Code bearbeiten und ausführen