Gegroepeerde samenvattingen
Er zijn dus meer niet-klachten dan klachten in twitter_data. Je begint je misschien af te vragen of deze data eigenlijk wel van Twitter komt! Er zijn nog een paar andere interessante kolommen in twitter_data die handig zijn om te verkennen voordat je naar de tweets zelf gaat. Elke tweet bevat het aantal volgers dat de gebruiker heeft in de kolom usr_followers_count. Verwacht je dat degenen die klagen gemiddeld meer of juist minder volgers hebben dan degenen die niet klagen? Met gegroepeerde samenvattingen kun je snel en eenvoudig een antwoord geven.
Deze oefening maakt deel uit van de cursus
Introductie tot tekstanalyse in R
Oefeninstructies
- Groepeer de gegevens op
complaint_label. - Bereken het gemiddelde, minimum en maximum van
usr_followers_count.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Start with the data frame
___ %>%
# Group the data by whether or not the tweet is a complaint
___(___) %>%
# Compute the mean, min, and max follower counts
summarize(
avg_followers = ___(___),
min_followers = ___(___),
max_followers = ___(___)
)