Aan de slagGa gratis aan de slag

We hebben een winnaar!

In deze oefening bepalen we een belangrijke metric: wie is de gebruiker die de tweet met de meeste retweets heeft geplaatst?

Dit soort informatie is belangrijk bij socialmedia-analyse: het vertelt je wat de meest "bekende" tweet in je gegevensset is. Dat kan later helpen om de belangrijkste thema's en gebruikers voor een bepaalde topic/hashtag te bepalen.

We gebruiken purrr om de meest geretweete tweet uit onze corpus te halen en te zien wie de gebruiker achter die tweet is. Omdat we deze analyse alleen op originele tweets willen uitvoeren, hebben we de lijst non_rt voor je klaargezet, die in een eerdere oefening is aangemaakt.

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

Cursus bekijken

Oefeninstructies

  • Extraheer alle "retweet_count"-elementen met de juiste map_*()-variant. Geef dit door aan max().

  • Vul een map_at() vooraf in, met .at gelijk aan "retweet_count" en .f een mapper die test op gelijkheid met max_rt.

  • Map deze nieuwe functie op non_rt, bewaar alleen "retweet_count", en maak het resultaat plat.

  • Print de $screen_name en $text van het resultaat naar de console.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Get the max() of "retweet_count" 
max_rt <- ___(non_rt, ___) %>% 
  ___()

# Prefill map_at() with a mapper testing if .x equal max_rt
max_rt_calc <- ___(___, .at = "retweet_count", .f := ~ ___ )

res <- non_rt %>%
  # Call max_rt_calc() on each element
  ___(___) %>% 
  # Keep elements where retweet_count is non-zero
  ___("___") %>% 
  # Flatten it
  ___()

# Print the "screen_name" and "text" of the result
res$screen_name
res$text
Code bewerken en uitvoeren