Gegroepeerde samenvattingen

Er zijn dus meer niet-klachten dan klachten in twitter_data. Je begint je misschien af te vragen of deze data eigenlijk wel van Twitter komt! Er zijn nog een paar andere interessante kolommen in twitter_data die handig zijn om te verkennen voordat je naar de tweets zelf gaat. Elke tweet bevat het aantal volgers dat de gebruiker heeft in de kolom usr_followers_count. Verwacht je dat degenen die klagen gemiddeld meer of juist minder volgers hebben dan degenen die niet klagen? Met gegroepeerde samenvattingen kun je snel en eenvoudig een antwoord geven.

Deze oefening maakt deel uit van de cursus

Introductie tot tekstanalyse in R

Bekijk cursus

Oefeninstructies

Groepeer de gegevens op complaint_label.
Bereken het gemiddelde, minimum en maximum van usr_followers_count.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Start with the data frame
___ %>% 
  # Group the data by whether or not the tweet is a complaint
  ___(___) %>% 
  # Compute the mean, min, and max follower counts
  summarize(
    avg_followers = ___(___),
    min_followers = ___(___),
    max_followers = ___(___)
  )

Code bewerken en uitvoeren