IniziaInizia gratis

Spam e num_char

Esiste un'associazione tra lo spam e la lunghezza di un'email? Si possono immaginare scenari in entrambe le direzioni:

  • Lo spam è più spesso un messaggio breve che mi tenta a cliccare su un link, oppure
  • La mia email normale è più corta perché scambio spesso messaggi rapidi con gli amici.

Qui userai l'insieme di dati email per chiarire la questione. Inizia aprendo la pagina di aiuto e scoprendo tutte le variabili con ?email.

Mentre esplori l'associazione tra spam e lunghezza di un'email, cogli l'occasione per provare a collegare una catena dplyr ai layer di un oggetto ggplot2.

Questo esercizio fa parte del corso

Analisi esplorativa dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

Usando l'insieme di dati email

  • Carica i pacchetti ggplot2, dplyr e openintro.
  • Calcola misure appropriate di centro e dispersione di num_char sia per spam sia per non-spam usando group_by() e summarize(). Non è necessario assegnare nomi alle nuove colonne create da summarize().
  • Costruisci box plot affiancati per visualizzare l'associazione tra le stesse due variabili. Ti sarà utile mutate() per creare una nuova colonna contenente una versione di num_char trasformata in log.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Modifica ed esegui il codice