Rispondere alle domande con le catene
Quando hai una domanda specifica su un insieme di dati, puoi arrivare alla risposta costruendo con cura la giusta catena di codice R. Per esempio, considera la domanda: «Tra le email non spam, la lunghezza tipica delle email è più breve per quelle inviate a più persone?»
Questo si può verificare con la seguente catena:
email %>%
filter(spam == "not-spam") %>%
group_by(to_multiple) %>%
summarize(median(num_char))
Il codice chiarisce che stai usando num_char per misurare la lunghezza di un'email e median() come misura di ciò che è tipico. Se esegui questo codice, scoprirai che la risposta è «sì»: la lunghezza tipica delle email non spam inviate a più persone è un po' inferiore rispetto a quelle inviate a una sola persona.
Questa catena si conclude con statistiche riassuntive, ma altre potrebbero terminare con un grafico; tutto dipende dalla domanda a cui stai cercando di rispondere.
Questo esercizio fa parte del corso
Analisi esplorativa dei dati in R
Istruzioni dell'esercizio
Crea una catena per rispondere a ciascuna delle seguenti domande, entrambe sulla variabile dollar.
- Per le email che contengono la parola "dollar", l'email di spam tipica contiene un numero di occorrenze della parola maggiore rispetto alla tipica email non spam? Crea una statistica riassuntiva che risponda a questa domanda.
- Se ti capita un'email con più di 10 occorrenze della parola
dollar, è più probabile che sia spam o non spam? Crea un grafico a barre che risponda a questa domanda.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Question 1
email %>%
filter(___) %>%
group_by(___) %>%
summarize(___)
# Question 2
email %>%
filter(___) %>%
ggplot(aes(x = ___)) +
geom_bar()