Statistiek gebruiken om normaal gedrag te definiëren

In de vorige oefeningen zagen we dat fraude vaker voorkomt in bepaalde transactiecategorieën, maar dat er geen duidelijke manier is om onze data te segmenteren, bijvoorbeeld in leeftijdsgroepen. Laten we nu de gemiddelde uitgegeven bedragen vergelijken bij normale transacties versus frauduleuze transacties. Dit geeft je een idee hoe frauduleuze transacties structureel verschillen van normale transacties.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Maak twee nieuwe dataframes aan voor fraude- en niet-fraude-observaties. Selecteer de data in df met .loc en gebruik de voorwaarden "waar fraud 1 is" en "waar fraud 0 is" voor het aanmaken van de nieuwe dataframes.
Plot de amount-kolom van de nieuw aangemaakte dataframes met de histogramfuncties en geef respectievelijk de labels fraud en nonfraud aan de plots.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create two dataframes with fraud and non-fraud data 
df_fraud = df.____[df.____ == ____] 
df_non_fraud = df.____[df.____ == ____]

# Plot histograms of the amounts in fraud and non-fraud data 
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()

Code bewerken en uitvoeren