Aan de slagGa gratis aan de slag

Niveaus samenvoegen

Als het al lastig was om te werken met de sterke scheefheid van exclaim_mess, dan is het aantal afbeeldingen dat aan elke e-mail is toegevoegd (image) nog uitdagender. Voer onderstaande code uit in de console om een idee te krijgen van de verdeling:

table(email$image)

Onthoud dat dit het aantal gevallen in elke categorie telt (er waren bijvoorbeeld 3811 e-mails met 0 afbeeldingen). Gezien de zeer lage aantallen bij hogere aantallen afbeeldingen, voegen we image samen tot een categorische variabele die aangeeft of de e-mail minstens één afbeelding had of niet. In deze oefening maak je deze nieuwe variabele en onderzoek je de relatie met spam.

Deze oefening maakt deel uit van de cursus

Exploratory Data Analysis in R

Cursus bekijken

Oefeninstructies

Begin met email en maak een aaneengeschakelde keten die de volgende taken uitvoert:

  • Maak een nieuwe variabele has_image die TRUE is wanneer het aantal afbeeldingen groter is dan nul en anders FALSE.
  • Maak een geschikte visualisatie met email om de relatie tussen has_image en spam te laten zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Code bewerken en uitvoeren