Spam e num_char
Esiste un'associazione tra lo spam e la lunghezza di un'email? Si possono immaginare scenari in entrambe le direzioni:
- Lo spam è più spesso un messaggio breve che mi tenta a cliccare su un link, oppure
- La mia email normale è più corta perché scambio spesso messaggi rapidi con gli amici.
Qui userai l'insieme di dati email per chiarire la questione. Inizia aprendo la pagina di aiuto e scoprendo tutte le variabili con ?email.
Mentre esplori l'associazione tra spam e lunghezza di un'email, cogli l'occasione per provare a collegare una catena dplyr ai layer di un oggetto ggplot2.
Questo esercizio fa parte del corso
Analisi esplorativa dei dati in R
Istruzioni dell'esercizio
Usando l'insieme di dati email
- Carica i pacchetti
ggplot2,dplyreopenintro. - Calcola misure appropriate di centro e dispersione di
num_charsia per spam sia per non-spam usandogroup_by()esummarize(). Non è necessario assegnare nomi alle nuove colonne create dasummarize(). - Costruisci box plot affiancati per visualizzare l'associazione tra le stesse due variabili. Ti sarà utile
mutate()per creare una nuova colonna contenente una versione dinum_chartrasformata in log.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___