LoslegenKostenlos loslegen

Kategorien zusammenfassen

Wenn es schon schwierig war, mit der starken Schiefe von exclaim_mess umzugehen, stellt image – die Anzahl der an jede E-Mail angehängten Bilder – eine noch größere Herausforderung dar. Führe folgenden Code in der Konsole aus, um ein Gefühl für die Verteilung zu bekommen:

table(email$image)

Denk daran: Das zählt die Anzahl der Fälle in jeder Kategorie (es gab zum Beispiel 3811 E-Mails mit 0 Bildern). Angesichts der sehr geringen Häufigkeiten bei höheren Bildzahlen fassen wir image zu einer kategorialen Variablen zusammen, die angibt, ob die E-Mail mindestens ein Bild hatte oder nicht. In dieser Übung erstellst du diese neue Variable und untersuchst ihren Zusammenhang mit Spam.

Diese Übung ist Teil des Kurses

Explorative Datenanalyse in R

Kurs anzeigen

Anleitung zur Übung

Beginne mit email und bilde eine durchgehende Pipe-Kette, die folgende Aufgaben verknüpft:

  • Erstelle eine neue Variable namens has_image, die TRUE ist, wenn die Anzahl der Bilder größer als null ist, und sonst FALSE.
  • Erstelle mit email eine passende Grafik, um die Beziehung zwischen has_image und spam zu visualisieren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Code bearbeiten und ausführen