Spam und !!!
Schauen wir uns einen offensichtlicheren Hinweis auf Spam an: Ausrufezeichen. exclaim_mess enthält die Anzahl der Ausrufezeichen in jeder Nachricht. Untersuche mit Kennzahlen und Visualisierung, ob es einen Zusammenhang zwischen dieser Variable und dem Spam-Status einer Nachricht gibt.
Probiere verschiedene Diagrammtypen aus, bis du den informativsten findest. Zur Erinnerung, du hast gesehen:
- Nebeneinanderliegende Boxplots
- Facettierte Histogramme
- Überlagerte Dichtekurven
Diese Übung ist Teil des Kurses
Explorative Datenanalyse in R
Anleitung zur Übung
Der Datensatz email ist weiterhin in deinem Workspace verfügbar.
- Berechne passende Maße für Lage und Streuung von
exclaim_messgetrennt für Spam und Nicht-Spam mitgroup_by()undsummarize(). - Erstelle ein geeignetes Diagramm, um den Zusammenhang zwischen denselben beiden Variablen zu visualisieren, und füge bei Bedarf eine Log-Transformation hinzu.
- Wenn du dich für eine Log-Transformation entscheidest, denk daran:
log(0)ist in R-Infund damit nicht besonders nützlich! Du kannst das umgehen, indem du der Größe innerhalb derlog()-Funktion eine kleine Zahl (z. B.0.01) hinzufügst. So ist dein Wert nie null. Diese kleine Verschiebung nach rechts wirkt sich nicht auf deine Ergebnisse aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess