De traditionele manier om fraude te vangen verkennen
In deze oefening ga je fraudegevallen in onze creditcardgegevensset op de "oude manier" proberen te vinden. Eerst definieer je drempelwaarden met behulp van gangbare statistieken om fraude en niet-fraude te scheiden. Gebruik die drempels vervolgens op je features om fraude te detecteren. Dit is gangbare praktijk binnen fraudeteams.
Statistische drempels worden vaak bepaald door te kijken naar de gemiddelde waarden van observaties. Laten we deze oefening beginnen met na te gaan of gemiddelden van features verschillen tussen fraude- en niet-fraudegevallen. Daarna gebruik je die informatie om slimme, praktijkgerichte drempels te maken. Tot slot controleer je hoe goed dit werkt voor fraudedetectie.
pandas is al geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Gebruik
groupby()omdfte groeperen opClassen verkrijg het gemiddelde van de features. - Maak de conditie:
V1kleiner dan -3 énV3kleiner dan -5 om fraudegevallen te markeren. - Gebruik als prestatiemaat de functie
crosstabuitpandasom onze gemarkeerde fraudegevallen te vergelijken met de daadwerkelijke fraudegevallen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get the mean for each group
____.____(____).mean()
# Implement a rule for stating which cases are flagged as fraud
df['flag_as_fraud'] = np.where(np.logical_and(______), 1, 0)
# Create a crosstab of flagged fraud cases versus the actual fraud cases
print(____(df.Class, df.flag_as_fraud, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))