Kategorien zusammenfassen
Wenn es schon schwierig war, mit der starken Schiefe von exclaim_mess umzugehen, stellt image – die Anzahl der an jede E-Mail angehängten Bilder – eine noch größere Herausforderung dar. Führe folgenden Code in der Konsole aus, um ein Gefühl für die Verteilung zu bekommen:
table(email$image)
Denk daran: Das zählt die Anzahl der Fälle in jeder Kategorie (es gab zum Beispiel 3811 E-Mails mit 0 Bildern). Angesichts der sehr geringen Häufigkeiten bei höheren Bildzahlen fassen wir image zu einer kategorialen Variablen zusammen, die angibt, ob die E-Mail mindestens ein Bild hatte oder nicht. In dieser Übung erstellst du diese neue Variable und untersuchst ihren Zusammenhang mit Spam.
Diese Übung ist Teil des Kurses
Explorative Datenanalyse in R
Anleitung zur Übung
Beginne mit email und bilde eine durchgehende Pipe-Kette, die folgende Aufgaben verknüpft:
- Erstelle eine neue Variable namens
has_image, dieTRUEist, wenn die Anzahl der Bilder größer als null ist, und sonstFALSE. - Erstelle mit
emaileine passende Grafik, um die Beziehung zwischenhas_imageundspamzu visualisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)