Een tibble maken van een corpus
Om de corpus met ruwe-oliedata die je van een collega kreeg verder te verkennen, besluit je een pipeline te maken om de tekst in de documenten op te schonen. In plaats van dit met het tm-pakket te doen, zet je het corpus om naar een tibble zodat je de functies unnest_tokens(), count() en anti_join() kunt gebruiken waar je al mee bekend bent. De corpus crude bevat zowel de metadata als de tekst van elk document.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Zet het corpus om in een tibble.
- Gebruik
namesom de kolomnamen af te drukken. - Tokenize (per woord), tel en verwijder stopwoorden uit de kolom
textvancrude_tibble.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)