Überprüfung des Verhältnisses von Betrug zu Nicht-Betrug
In diesem Kapitel arbeitest du mit creditcard_sampledata.csv, einem Datensatz mit Kreditkartentransaktionen. Betrugsfälle sind in diesen Transaktionen zum Glück eine extreme Minderheit.
Machine-Learning-Algorithmen funktionieren jedoch meist am besten, wenn die verschiedenen Klassen im Datensatz mehr oder weniger gleich stark vertreten sind. Wenn es nur wenige Betrugsfälle gibt, gibt es wenig Daten, aus denen das Erkennen gelernt werden kann. Das nennt man Klassenungleichgewicht und es ist eine der größten Herausforderungen in der Betrugserkennung.
Lass uns diesen Datensatz erkunden und uns dieses Problem des Klassenungleichgewichts ansehen.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Importiere
pandasalspd, lies die Kreditkartendaten ein und weise siedfzu. Das wurde bereits für dich erledigt. - Verwende
.info(), um Informationen überdfauszugeben. - Verwende
.value_counts(), um die Anzahl betrügerischer und nicht-betrügerischer Transaktionen in der Spalte'Class'zu erhalten. Weise das Ergebnisocczu. - Ermittle den Anteil der betrügerischen Transaktionen an der Gesamtzahl der Transaktionen im Datensatz.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import pandas and read csv
import pandas as pd
df = pd.read_csv("creditcard_data.csv")
# Explore the features available in your dataframe
print(df.____)
# Count the occurrences of fraud and no fraud and print them
occ = df['____'].____()
print(occ)
# Print the ratio of fraud cases
print(occ / ____)