IniziaInizia gratis

Raggruppare livelli

Se è stato difficile lavorare con la forte asimmetria di exclaim_mess, il numero di immagini allegate a ciascuna email (image) è una sfida ancora maggiore. Esegui il seguente codice nella console per farti un’idea della sua distribuzione:

table(email$image)

Ricorda che questo riporta il numero di casi in ciascuna categoria (ad esempio, c’erano 3811 email con 0 immagini). Dato il numero molto basso di casi ai valori più alti di immagini, raggruppiamo image in una variabile categorica che indichi se l’email aveva almeno un’immagine oppure no. In questo esercizio creerai questa nuova variabile ed esplorerai la sua associazione con lo spam.

Questo esercizio fa parte del corso

Analisi esplorativa dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

Partendo da email, crea una catena continua che colleghi i seguenti passaggi:

  • Crea una nuova variabile chiamata has_image che sia TRUE quando il numero di immagini è maggiore di zero e FALSE altrimenti.
  • Crea un grafico appropriato con email per visualizzare la relazione tra has_image e spam.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Modifica ed esegui il codice