Spam e !!!
Guardiamo un indicatore di spam più evidente: i punti esclamativi. exclaim_mess contiene il numero di punti esclamativi in ogni messaggio. Usando statistiche riassuntive e visualizzazioni, verifica se c'è una relazione tra questa variabile e il fatto che un messaggio sia spam o meno.
Fai esperimenti con tipi di grafici diversi finché non trovi quello più informativo. Ricorda che hai visto:
- Box plot affiancati
- Istogrammi con facet
- Curve di densità sovrapposte
Questo esercizio fa parte del corso
Analisi esplorativa dei dati in R
Istruzioni dell'esercizio
Il dataset email è ancora disponibile nel tuo workspace.
- Calcola misure appropriate di centro e dispersione di
exclaim_messsia per spam sia per non-spam usandogroup_by()esummarize(). - Costruisci un grafico adeguato per visualizzare l'associazione tra le stesse due variabili, aggiungendo un passaggio di trasformazione logaritmica se necessario.
- Se decidi di usare una trasformazione logaritmica, ricorda che
log(0)è-Infin R, il che non è molto utile! Puoi aggirare il problema aggiungendo un piccolo numero (come0.01) alla quantità dentro la funzionelog(). In questo modo, il valore non sarà mai zero. Questo piccolo spostamento verso destra non influenzerà i risultati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess