Patronen in de data visualiseren
De eerste stap voordat je gaat modelleren, is je data verkennen. Laten we beginnen met het bekijken van je gegevensset en het visualiseren van verschillende patronen tussen frauduleuze en reguliere voorbeelden. Uitzonderlijk ga jij de visualisatie zelf bouwen!
De gegevensset transfers bevat overboekingen, waarvan sommige als fraude zijn geregistreerd. De kolom fraud_flag geeft aan of de transactie frauduleus is (fraud_flag = 1) of niet (fraud_flag = 0). Deze gegevensset en het pakket ggplot2 zijn geladen in je werkruimte.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in R
Oefeninstructies
- Plot de kolom
amountals onafhankelijke variabele op de x-as, en de kolomorig_balance_before— het saldo op de rekening van de verzender vóór het boeken van de overboeking — als afhankelijke variabele op de y-as. - Geef de data kleur en vorm op basis van de waarde in de kolom
fraud_flag.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Make a scatter plot
ggplot(transfers, aes(x = ___, y = ___)) +
geom_point(aes(color = ___, shape = ___)) +
scale_color_manual(values = c('dodgerblue', 'red'))