Aan de slagGa gratis aan de slag

Opschonen en tellen

Verwijder stopwoorden om alleen de inhoud te verkennen van de airline-tweets die in twitter_data als klachten zijn geclassificeerd.

Deze oefening maakt deel uit van de cursus

Introductie tot tekstanalyse in R

Cursus bekijken

Oefeninstructies

  • Tokenize de tweets in twitter_data. Noem de kolom met getokenizde woorden word.
  • Verwijder de standaard stopwoorden uit de getokenizde twitter_data.
  • Filter zodat je alleen de klachten overhoudt.
  • Bereken woordfrequenties met de getokenizde, opgeschoonde tekst en sorteer aflopend op de telling.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)
Code bewerken en uitvoeren