LoslegenKostenlos loslegen

Spam und !!!

Schauen wir uns einen offensichtlicheren Hinweis auf Spam an: Ausrufezeichen. exclaim_mess enthält die Anzahl der Ausrufezeichen in jeder Nachricht. Untersuche mit Kennzahlen und Visualisierung, ob es einen Zusammenhang zwischen dieser Variable und dem Spam-Status einer Nachricht gibt.

Probiere verschiedene Diagrammtypen aus, bis du den informativsten findest. Zur Erinnerung, du hast gesehen:

  • Nebeneinanderliegende Boxplots
  • Facettierte Histogramme
  • Überlagerte Dichtekurven

Diese Übung ist Teil des Kurses

Explorative Datenanalyse in R

Kurs anzeigen

Anleitung zur Übung

Der Datensatz email ist weiterhin in deinem Workspace verfügbar.

  • Berechne passende Maße für Lage und Streuung von exclaim_mess getrennt für Spam und Nicht-Spam mit group_by() und summarize().
  • Erstelle ein geeignetes Diagramm, um den Zusammenhang zwischen denselben beiden Variablen zu visualisieren, und füge bei Bedarf eine Log-Transformation hinzu.
  • Wenn du dich für eine Log-Transformation entscheidest, denk daran: log(0) ist in R -Inf und damit nicht besonders nützlich! Du kannst das umgehen, indem du der Größe innerhalb der log()-Funktion eine kleine Zahl (z. B. 0.01) hinzufügst. So ist dein Wert nie null. Diese kleine Verschiebung nach rechts wirkt sich nicht auf deine Ergebnisse aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Code bearbeiten und ausführen