Aan de slagGa gratis aan de slag

Voorbewerking van tekst: stemming

De stam van woorden is vaak belangrijker dan hun uitgangen, zeker bij tekstanalyse. Het boek Animal Farm gaat duidelijk over dieren. Maar weten dat het boek animal's 248 keer en animal 107 keer noemt, helpt je analyse misschien niet echt verder.

tidy_animal_farm bevat een tibble met de woorden uit Animal Farm, getokenized en zonder stopwoorden. De volgende stap is om de woorden te stemmen en de resultaten te verkennen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Gebruik dplyr en SnowballC om de woorden uit tidy_animal_farm te stemmen.
  • Print de oude woordfrequenties uit tidy_animal_farm.
  • Print de nieuwe woordfrequenties uit stemmed_animal_farm.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Code bewerken en uitvoeren