Spelen met tweets, ronde 1
Weet je nog dat je in de vorige hoofdstukken als data-analist voor een webbureau werkte? Je deed het uitstekend, en nu heb je weer een nieuw project gekregen ;) In dit hoofdstuk ga je een nieuw soort data analyseren: JSON-output.
Je engineeringteam heeft je de output gegeven van een dataverzameling met tweets, verzameld tijdens RStudio Conf 2018. Omdat deze gegevens in JSON staan, heb je ze in R ingelezen als een geneste lijst.
Eerst wil je deze gegevensset globaal verkennen, en daarbij komt purrr goed van pas. Het pakket is alvast voor je geladen, en de rstudioconf-gegevensset is beschikbaar in je werkruimte.
Let op: probeer niet de hele gegevensset te printen — die is te groot om in de DataCamp-console weer te geven.
Houd er rekening mee dat dit echte data van Twitter zijn en dat er dus altijd een risico is dat ze grof taalgebruik of andere aanstootgevende inhoud bevatten (in deze oefening en in eventuele volgende oefeningen die ook echte Twitter-data gebruiken).
Deze oefening maakt deel uit van de cursus
Gevorderd functioneel programmeren met purrr
Oefeninstructies
Print het eerste element van de lijst om een idee te krijgen van de inhoud en structuur.
Omdat je je wilt richten op originele tweets (geen retweets), maak je een sublijst met niet-retweets via het logische element
"is_retweet"in elke sublijst.Extraheer het element
"favorite_count"van elk element in deze nieuwe sublijst met demap_*-variant voor gehele getallen.Bepaal de mediaan van het vorige resultaat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the first element of the list to the console
# Create a sublist of non-retweets
non_rt <- ___(___, "is_retweet")
# Extract the favorite count element of each non_rt sublist
fav_count <- ___(___, "favorite_count")
# Get the median of favorite_count for non_rt
___(___)