Giochiamo con i tweet, round 1
Ti ricordi che, nei capitoli precedenti, hai lavorato come data analyst per una web agency? Hai fatto un ottimo lavoro e ora ti hanno assegnato un altro progetto ;) In questo capitolo analizzerai un nuovo tipo di dato: l’output JSON.
Il team di engineering ti ha fornito l’output di una raccolta di dati con i tweet pubblicati durante la RStudio Conf 2018. Poiché questo insieme di dati è in JSON, lo hai letto in R come una lista annidata.
Per iniziare, vuoi fare un’esplorazione di base di questo insieme di dati, e purrr ti tornerà utile. Il pacchetto è già stato caricato per te e il dataset rstudioconf è disponibile nel tuo workspace.
Nota: non provare a stampare l’intero dataset — è troppo grande per essere stampato nella console di datacamp.
Tieni presente che si tratta di dati reali da Twitter e, come tali, c’è sempre il rischio che possano contenere volgarità o altri contenuti offensivi (in questo esercizio e in qualsiasi esercizio successivo che utilizzi dati reali di Twitter).
Questo esercizio fa parte del corso
Programmazione funzionale intermedia con purrr
Istruzioni dell'esercizio
Stampa il primo elemento della lista per avere una panoramica di contenuto e struttura.
Poiché vuoi concentrarti sui tweet originali (non retweet), crea una sottolista di non-retweet usando l’elemento logico
"is_retweet"contenuto in ogni sotto-lista.Estrai l’elemento
"favorite_count"da ciascun elemento di questa nuova sottolista usando la variantemap_*per interi.Calcola la mediana del risultato precedente.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the first element of the list to the console
# Create a sublist of non-retweets
non_rt <- ___(___, "is_retweet")
# Extract the favorite count element of each non_rt sublist
fav_count <- ___(___, "favorite_count")
# Get the median of favorite_count for non_rt
___(___)