LoslegenKostenlos loslegen

Fragen mit Chains beantworten

Wenn du eine konkrete Frage zu einem Datensatz hast, kannst du dir die Antwort erarbeiten, indem du gezielt eine passende Kette (Chain) von R-Code zusammenstellst. Betrachte zum Beispiel folgende Frage: „Sind bei Nicht-Spam-E-Mails die typischen E-Mail-Längen kürzer, wenn sie an mehrere Personen gesendet wurden?“

Diese Frage lässt sich mit der folgenden Chain beantworten:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Der Code macht klar, dass du num_char zur Messung der Länge einer E-Mail und median() als Maß für das Typische verwendest. Wenn du diesen Code ausführst, erfährst du, dass die Antwort „ja“ lautet: Die typische Länge von Nicht-Spam, der an mehrere Personen gesendet wurde, ist etwas geringer als bei E-Mails, die nur an eine Person gingen.

Diese Chain endet mit zusammenfassenden Kennzahlen, andere können in einer Grafik münden – das hängt ganz von der jeweiligen Fragestellung ab, die du beantworten möchtest.

Diese Übung ist Teil des Kurses

Explorative Datenanalyse in R

Kurs anzeigen

Anleitung zur Übung

Baue eine Chain, um jede der folgenden Fragen zur Variable dollar zu beantworten.

  • Enthalten E-Mails mit dem Wort „dollar“ in typischen Spam-E-Mails mehr Vorkommen dieses Wortes als in typischen Nicht-Spam-E-Mails? Erstelle eine Kennzahl, die diese Frage beantwortet.
  • Wenn du auf eine E-Mail mit mehr als 10 Vorkommen des Worts dollar triffst, ist sie dann eher Spam oder not-spam? Erstelle ein Balkendiagramm, das diese Frage beantwortet.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()
Code bearbeiten und ausführen