Spam en !!!
Laten we kijken naar een duidelijkere indicator van spam: uitroeptekens. exclaim_mess bevat het aantal uitroeptekens in elk bericht. Gebruik samenvattende statistieken en visualisatie om te zien of er een relatie is tussen deze variabele en of een bericht spam is of niet.
Experimenteer met verschillende soorten grafieken totdat je de meest informatieve vindt. Je hebt eerder gezien:
- Boxplots naast elkaar
- Gefacetteerde histogrammen
- Over elkaar gelegde dichtheidsplots
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in R
Oefeninstructies
De email-gegevensset is nog steeds beschikbaar in je werkruimte.
- Bereken passende maten voor het midden en de spreiding van
exclaim_messvoor zowel spam als niet-spam metgroup_by()ensummarize(). - Maak een geschikte grafiek om het verband tussen dezelfde twee variabelen te visualiseren, en voeg indien nodig een log-transformatie toe.
- Als je besluit een log-transformatie te gebruiken, onthoud dan dat
log(0)-Infis in R, wat niet erg handig is! Dit omzeil je door een klein getal (zoals0.01) op te tellen bij de hoeveelheid binnen delog()-functie. Zo wordt je waarde nooit nul. Deze kleine verschuiving naar rechts heeft geen invloed op je resultaten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess