Aan de slagGa gratis aan de slag

Spam en num_char

Is er een verband tussen spam en de lengte van een e-mail? Je kunt beide kanten op redeneren:

  • Spam is vaker een kort bericht dat me verleidt om op een link te klikken, of
  • Mijn normale e-mail is waarschijnlijk korter omdat ik vaak korte berichtjes met mijn vrienden uitwissel.

Hier gebruik je de email-gegevensset om die vraag te beantwoorden. Begin met het openen van het helpbestand en leer meer over alle variabelen met ?email.

Terwijl je het verband tussen spam en de lengte van een e-mail verkent, kun je meteen oefenen met het koppelen van een dplyr-keten aan de lagen in een ggplot2-object.

Deze oefening maakt deel uit van de cursus

Exploratory Data Analysis in R

Cursus bekijken

Oefeninstructies

Met de email-gegevensset

  • Laad de pakketten ggplot2, dplyr en openintro.
  • Bereken passende maten voor het centrum en de spreiding van num_char voor zowel spam als niet-spam met group_by() en summarize(). Je hoeft de nieuwe kolommen die summarize() maakt geen namen te geven.
  • Maak naast elkaar geplaatste boxplots om het verband tussen dezelfde twee variabelen te visualiseren. Het is handig om met mutate() een nieuwe kolom toe te voegen met een log-getransformeerde versie van num_char.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Code bewerken en uitvoeren