IniziaInizia gratis

Rispondere alle domande con le catene

Quando hai una domanda specifica su un insieme di dati, puoi arrivare alla risposta costruendo con cura la giusta catena di codice R. Per esempio, considera la domanda: «Tra le email non spam, la lunghezza tipica delle email è più breve per quelle inviate a più persone?»

Questo si può verificare con la seguente catena:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Il codice chiarisce che stai usando num_char per misurare la lunghezza di un'email e median() come misura di ciò che è tipico. Se esegui questo codice, scoprirai che la risposta è «sì»: la lunghezza tipica delle email non spam inviate a più persone è un po' inferiore rispetto a quelle inviate a una sola persona.

Questa catena si conclude con statistiche riassuntive, ma altre potrebbero terminare con un grafico; tutto dipende dalla domanda a cui stai cercando di rispondere.

Questo esercizio fa parte del corso

Analisi esplorativa dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

Crea una catena per rispondere a ciascuna delle seguenti domande, entrambe sulla variabile dollar.

  • Per le email che contengono la parola "dollar", l'email di spam tipica contiene un numero di occorrenze della parola maggiore rispetto alla tipica email non spam? Crea una statistica riassuntiva che risponda a questa domanda.
  • Se ti capita un'email con più di 10 occorrenze della parola dollar, è più probabile che sia spam o non spam? Crea un grafico a barre che risponda a questa domanda.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()
Modifica ed esegui il codice