De traditionele manier om fraude te vangen verkennen

In deze oefening ga je fraudegevallen in onze creditcardgegevensset op de "oude manier" proberen te vinden. Eerst definieer je drempelwaarden met behulp van gangbare statistieken om fraude en niet-fraude te scheiden. Gebruik die drempels vervolgens op je features om fraude te detecteren. Dit is gangbare praktijk binnen fraudeteams.

Statistische drempels worden vaak bepaald door te kijken naar de gemiddelde waarden van observaties. Laten we deze oefening beginnen met na te gaan of gemiddelden van features verschillen tussen fraude- en niet-fraudegevallen. Daarna gebruik je die informatie om slimme, praktijkgerichte drempels te maken. Tot slot controleer je hoe goed dit werkt voor fraudedetectie.

pandas is al geïmporteerd als pd.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Gebruik groupby() om df te groeperen op Class en verkrijg het gemiddelde van de features.
Maak de conditie: V1 kleiner dan -3 én V3 kleiner dan -5 om fraudegevallen te markeren.
Gebruik als prestatiemaat de functie crosstab uit pandas om onze gemarkeerde fraudegevallen te vergelijken met de daadwerkelijke fraudegevallen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Get the mean for each group
____.____(____).mean()

# Implement a rule for stating which cases are flagged as fraud
df['flag_as_fraud'] = np.where(np.logical_and(______), 1, 0)

# Create a crosstab of flagged fraud cases versus the actual fraud cases
print(____(df.Class, df.flag_as_fraud, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

Code bewerken en uitvoeren