Niveaus samenvoegen
Als het al lastig was om te werken met de sterke scheefheid van exclaim_mess, dan is het aantal afbeeldingen dat aan elke e-mail is toegevoegd (image) nog uitdagender. Voer onderstaande code uit in de console om een idee te krijgen van de verdeling:
table(email$image)
Onthoud dat dit het aantal gevallen in elke categorie telt (er waren bijvoorbeeld 3811 e-mails met 0 afbeeldingen). Gezien de zeer lage aantallen bij hogere aantallen afbeeldingen, voegen we image samen tot een categorische variabele die aangeeft of de e-mail minstens één afbeelding had of niet. In deze oefening maak je deze nieuwe variabele en onderzoek je de relatie met spam.
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in R
Oefeninstructies
Begin met email en maak een aaneengeschakelde keten die de volgende taken uitvoert:
- Maak een nieuwe variabele
has_imagedieTRUEis wanneer het aantal afbeeldingen groter is dan nul en andersFALSE. - Maak een geschikte visualisatie met
emailom de relatie tussenhas_imageenspamte laten zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)