Statistiek gebruiken om normaal gedrag te definiëren
In de vorige oefeningen zagen we dat fraude vaker voorkomt in bepaalde transactiecategorieën, maar dat er geen duidelijke manier is om onze data te segmenteren, bijvoorbeeld in leeftijdsgroepen. Laten we nu de gemiddelde uitgegeven bedragen vergelijken bij normale transacties versus frauduleuze transacties. Dit geeft je een idee hoe frauduleuze transacties structureel verschillen van normale transacties.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Maak twee nieuwe dataframes aan voor fraude- en niet-fraude-observaties. Selecteer de data in
dfmet.locen gebruik de voorwaarden "waar fraud 1 is" en "waar fraud 0 is" voor het aanmaken van de nieuwe dataframes. - Plot de
amount-kolom van de nieuw aangemaakte dataframes met de histogramfuncties en geef respectievelijk de labelsfraudennonfraudaan de plots.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create two dataframes with fraud and non-fraud data
df_fraud = df.____[df.____ == ____]
df_non_fraud = df.____[df.____ == ____]
# Plot histograms of the amounts in fraud and non-fraud data
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()