IniziaInizia gratis

Spam e !!!

Guardiamo un indicatore di spam più evidente: i punti esclamativi. exclaim_mess contiene il numero di punti esclamativi in ogni messaggio. Usando statistiche riassuntive e visualizzazioni, verifica se c'è una relazione tra questa variabile e il fatto che un messaggio sia spam o meno.

Fai esperimenti con tipi di grafici diversi finché non trovi quello più informativo. Ricorda che hai visto:

  • Box plot affiancati
  • Istogrammi con facet
  • Curve di densità sovrapposte

Questo esercizio fa parte del corso

Analisi esplorativa dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

Il dataset email è ancora disponibile nel tuo workspace.

  • Calcola misure appropriate di centro e dispersione di exclaim_mess sia per spam sia per non-spam usando group_by() e summarize().
  • Costruisci un grafico adeguato per visualizzare l'associazione tra le stesse due variabili, aggiungendo un passaggio di trasformazione logaritmica se necessario.
  • Se decidi di usare una trasformazione logaritmica, ricorda che log(0) è -Inf in R, il che non è molto utile! Puoi aggirare il problema aggiungendo un piccolo numero (come 0.01) alla quantità dentro la funzione log(). In questo modo, il valore non sarà mai zero. Questo piccolo spostamento verso destra non influenzerà i risultati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Modifica ed esegui il codice