Spam und num_char
Gibt es einen Zusammenhang zwischen Spam und der Länge einer E-Mail? Man könnte sich in beide Richtungen eine plausible Geschichte vorstellen:
- Spam ist eher eine kurze Nachricht, die mich verleiten soll, auf einen Link zu klicken, oder
- Meine normalen E-Mails sind eher kürzer, weil ich ständig kurze Nachrichten mit meinen Freund:innen austausche.
Hier klärst du diese Frage mit dem Datensatz email. Starte, indem du die Hilfe öffnest und mit ?email alle Variablen kennenlernst.
Während du den Zusammenhang zwischen Spam und der Länge einer E-Mail untersuchst, nutze die Gelegenheit, eine dplyr-Kette mit den Layern in einem ggplot2-Objekt zu verknüpfen.
Diese Übung ist Teil des Kurses
Explorative Datenanalyse in R
Anleitung zur Übung
Mit dem Datensatz email
- Lade die Pakete
ggplot2,dplyrundopenintro. - Berechne geeignete Maße für Lage und Streuung von
num_charsowohl für Spam als auch Nicht-Spam mitgroup_by()undsummarize(). Die vonsummarize()erstellten neuen Spalten musst du nicht benennen. - Erstelle nebeneinanderstehende Boxplots, um den Zusammenhang zwischen denselben beiden Variablen zu visualisieren. Es ist hilfreich, per
mutate()eine neue Spalte mit einer logarithmisch transformierten Variante vonnum_charzu erzeugen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___