Voorbewerking van tekst: stemming
De stam van woorden is vaak belangrijker dan hun uitgangen, zeker bij tekstanalyse. Het boek Animal Farm gaat duidelijk over dieren. Maar weten dat het boek animal's 248 keer en animal 107 keer noemt, helpt je analyse misschien niet echt verder.
tidy_animal_farm bevat een tibble met de woorden uit Animal Farm, getokenized en zonder stopwoorden. De volgende stap is om de woorden te stemmen en de resultaten te verkennen.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Gebruik
dplyrenSnowballCom de woorden uittidy_animal_farmte stemmen. - Print de oude woordfrequenties uit
tidy_animal_farm. - Print de nieuwe woordfrequenties uit
stemmed_animal_farm.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)