Fragen mit Chains beantworten
Wenn du eine konkrete Frage zu einem Datensatz hast, kannst du dir die Antwort erarbeiten, indem du gezielt eine passende Kette (Chain) von R-Code zusammenstellst. Betrachte zum Beispiel folgende Frage: „Sind bei Nicht-Spam-E-Mails die typischen E-Mail-Längen kürzer, wenn sie an mehrere Personen gesendet wurden?“
Diese Frage lässt sich mit der folgenden Chain beantworten:
email %>%
filter(spam == "not-spam") %>%
group_by(to_multiple) %>%
summarize(median(num_char))
Der Code macht klar, dass du num_char zur Messung der Länge einer E-Mail und median() als Maß für das Typische verwendest. Wenn du diesen Code ausführst, erfährst du, dass die Antwort „ja“ lautet: Die typische Länge von Nicht-Spam, der an mehrere Personen gesendet wurde, ist etwas geringer als bei E-Mails, die nur an eine Person gingen.
Diese Chain endet mit zusammenfassenden Kennzahlen, andere können in einer Grafik münden – das hängt ganz von der jeweiligen Fragestellung ab, die du beantworten möchtest.
Diese Übung ist Teil des Kurses
Explorative Datenanalyse in R
Anleitung zur Übung
Baue eine Chain, um jede der folgenden Fragen zur Variable dollar zu beantworten.
- Enthalten E-Mails mit dem Wort „dollar“ in typischen Spam-E-Mails mehr Vorkommen dieses Wortes als in typischen Nicht-Spam-E-Mails? Erstelle eine Kennzahl, die diese Frage beantwortet.
- Wenn du auf eine E-Mail mit mehr als 10 Vorkommen des Worts
dollartriffst, ist sie dann eher Spam oder not-spam? Erstelle ein Balkendiagramm, das diese Frage beantwortet.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Question 1
email %>%
filter(___) %>%
group_by(___) %>%
summarize(___)
# Question 2
email %>%
filter(___) %>%
ggplot(aes(x = ___)) +
geom_bar()