We hebben een winnaar!
In deze oefening bepalen we een belangrijke metric: wie is de gebruiker die de tweet met de meeste retweets heeft geplaatst?
Dit soort informatie is belangrijk bij socialmedia-analyse: het vertelt je wat de meest "bekende" tweet in je gegevensset is. Dat kan later helpen om de belangrijkste thema's en gebruikers voor een bepaalde topic/hashtag te bepalen.
We gebruiken purrr om de meest geretweete tweet uit onze corpus te halen en te zien wie de gebruiker achter die tweet is. Omdat we deze analyse alleen op originele tweets willen uitvoeren, hebben we de lijst non_rt voor je klaargezet, die in een eerdere oefening is aangemaakt.
Deze oefening maakt deel uit van de cursus
Gevorderd functioneel programmeren met purrr
Oefeninstructies
Extraheer alle
"retweet_count"-elementen met de juistemap_*()-variant. Geef dit door aanmax().Vul een
map_at()vooraf in, met.atgelijk aan"retweet_count"en.feen mapper die test op gelijkheid metmax_rt.Map deze nieuwe functie op
non_rt, bewaar alleen"retweet_count", en maak het resultaat plat.Print de
$screen_nameen$textvan het resultaat naar de console.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get the max() of "retweet_count"
max_rt <- ___(non_rt, ___) %>%
___()
# Prefill map_at() with a mapper testing if .x equal max_rt
max_rt_calc <- ___(___, .at = "retweet_count", .f := ~ ___ )
res <- non_rt %>%
# Call max_rt_calc() on each element
___(___) %>%
# Keep elements where retweet_count is non-zero
___("___") %>%
# Flatten it
___()
# Print the "screen_name" and "text" of the result
res$screen_name
res$text