LoslegenKostenlos loslegen

Spam und num_char

Gibt es einen Zusammenhang zwischen Spam und der Länge einer E-Mail? Man könnte sich in beide Richtungen eine plausible Geschichte vorstellen:

  • Spam ist eher eine kurze Nachricht, die mich verleiten soll, auf einen Link zu klicken, oder
  • Meine normalen E-Mails sind eher kürzer, weil ich ständig kurze Nachrichten mit meinen Freund:innen austausche.

Hier klärst du diese Frage mit dem Datensatz email. Starte, indem du die Hilfe öffnest und mit ?email alle Variablen kennenlernst.

Während du den Zusammenhang zwischen Spam und der Länge einer E-Mail untersuchst, nutze die Gelegenheit, eine dplyr-Kette mit den Layern in einem ggplot2-Objekt zu verknüpfen.

Diese Übung ist Teil des Kurses

Explorative Datenanalyse in R

Kurs anzeigen

Anleitung zur Übung

Mit dem Datensatz email

  • Lade die Pakete ggplot2, dplyr und openintro.
  • Berechne geeignete Maße für Lage und Streuung von num_char sowohl für Spam als auch Nicht-Spam mit group_by() und summarize(). Die von summarize() erstellten neuen Spalten musst du nicht benennen.
  • Erstelle nebeneinanderstehende Boxplots, um den Zusammenhang zwischen denselben beiden Variablen zu visualisieren. Es ist hilfreich, per mutate() eine neue Spalte mit einer logarithmisch transformierten Variante von num_char zu erzeugen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Code bearbeiten und ausführen