Raggruppare livelli
Se è stato difficile lavorare con la forte asimmetria di exclaim_mess, il numero di immagini allegate a ciascuna email (image) è una sfida ancora maggiore. Esegui il seguente codice nella console per farti un’idea della sua distribuzione:
table(email$image)
Ricorda che questo riporta il numero di casi in ciascuna categoria (ad esempio, c’erano 3811 email con 0 immagini). Dato il numero molto basso di casi ai valori più alti di immagini, raggruppiamo image in una variabile categorica che indichi se l’email aveva almeno un’immagine oppure no. In questo esercizio creerai questa nuova variabile ed esplorerai la sua associazione con lo spam.
Questo esercizio fa parte del corso
Analisi esplorativa dei dati in R
Istruzioni dell'esercizio
Partendo da email, crea una catena continua che colleghi i seguenti passaggi:
- Crea una nuova variabile chiamata
has_imageche siaTRUEquando il numero di immagini è maggiore di zero eFALSEaltrimenti. - Crea un grafico appropriato con
emailper visualizzare la relazione trahas_imageespam.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)