Spam en num_char
Is er een verband tussen spam en de lengte van een e-mail? Je kunt beide kanten op redeneren:
- Spam is vaker een kort bericht dat me verleidt om op een link te klikken, of
- Mijn normale e-mail is waarschijnlijk korter omdat ik vaak korte berichtjes met mijn vrienden uitwissel.
Hier gebruik je de email-gegevensset om die vraag te beantwoorden. Begin met het openen van het helpbestand en leer meer over alle variabelen met ?email.
Terwijl je het verband tussen spam en de lengte van een e-mail verkent, kun je meteen oefenen met het koppelen van een dplyr-keten aan de lagen in een ggplot2-object.
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in R
Oefeninstructies
Met de email-gegevensset
- Laad de pakketten
ggplot2,dplyrenopenintro. - Bereken passende maten voor het centrum en de spreiding van
num_charvoor zowel spam als niet-spam metgroup_by()ensummarize(). Je hoeft de nieuwe kolommen diesummarize()maakt geen namen te geven. - Maak naast elkaar geplaatste boxplots om het verband tussen dezelfde twee variabelen te visualiseren. Het is handig om met
mutate()een nieuwe kolom toe te voegen met een log-getransformeerde versie vannum_char.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___