Aan de slagGa gratis aan de slag

Spam en !!!

Laten we kijken naar een duidelijkere indicator van spam: uitroeptekens. exclaim_mess bevat het aantal uitroeptekens in elk bericht. Gebruik samenvattende statistieken en visualisatie om te zien of er een relatie is tussen deze variabele en of een bericht spam is of niet.

Experimenteer met verschillende soorten grafieken totdat je de meest informatieve vindt. Je hebt eerder gezien:

  • Boxplots naast elkaar
  • Gefacetteerde histogrammen
  • Over elkaar gelegde dichtheidsplots

Deze oefening maakt deel uit van de cursus

Exploratory Data Analysis in R

Cursus bekijken

Oefeninstructies

De email-gegevensset is nog steeds beschikbaar in je werkruimte.

  • Bereken passende maten voor het midden en de spreiding van exclaim_mess voor zowel spam als niet-spam met group_by() en summarize().
  • Maak een geschikte grafiek om het verband tussen dezelfde twee variabelen te visualiseren, en voeg indien nodig een log-transformatie toe.
  • Als je besluit een log-transformatie te gebruiken, onthoud dan dat log(0) -Inf is in R, wat niet erg handig is! Dit omzeil je door een klein getal (zoals 0.01) op te tellen bij de hoeveelheid binnen de log()-functie. Zo wordt je waarde nooit nul. Deze kleine verschuiving naar rechts heeft geen invloed op je resultaten.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Code bewerken en uitvoeren