IniziaInizia gratis

Giochiamo con i tweet, round 1

Ti ricordi che, nei capitoli precedenti, hai lavorato come data analyst per una web agency? Hai fatto un ottimo lavoro e ora ti hanno assegnato un altro progetto ;) In questo capitolo analizzerai un nuovo tipo di dato: l’output JSON.

Il team di engineering ti ha fornito l’output di una raccolta di dati con i tweet pubblicati durante la RStudio Conf 2018. Poiché questo insieme di dati è in JSON, lo hai letto in R come una lista annidata.

Per iniziare, vuoi fare un’esplorazione di base di questo insieme di dati, e purrr ti tornerà utile. Il pacchetto è già stato caricato per te e il dataset rstudioconf è disponibile nel tuo workspace.

Nota: non provare a stampare l’intero dataset — è troppo grande per essere stampato nella console di datacamp.

Tieni presente che si tratta di dati reali da Twitter e, come tali, c’è sempre il rischio che possano contenere volgarità o altri contenuti offensivi (in questo esercizio e in qualsiasi esercizio successivo che utilizzi dati reali di Twitter).

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa il primo elemento della lista per avere una panoramica di contenuto e struttura.

  • Poiché vuoi concentrarti sui tweet originali (non retweet), crea una sottolista di non-retweet usando l’elemento logico "is_retweet" contenuto in ogni sotto-lista.

  • Estrai l’elemento "favorite_count" da ciascun elemento di questa nuova sottolista usando la variante map_* per interi.

  • Calcola la mediana del risultato precedente.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the first element of the list to the console 


# Create a sublist of non-retweets
non_rt <- ___(___, "is_retweet")

# Extract the favorite count element of each non_rt sublist
fav_count <- ___(___, "favorite_count")

# Get the median of favorite_count for non_rt
___(___)
Modifica ed esegui il codice