Aan de slagBegin gratis

Voorbewerking van tekst: stemming

De stam van woorden is vaak belangrijker dan hun uitgangen, zeker bij tekstanalyse. Het boek Animal Farm gaat duidelijk over dieren. Maar weten dat het boek animal's 248 keer en animal 107 keer noemt, helpt je analyse misschien niet echt verder.

tidy_animal_farm bevat een tibble met de woorden uit Animal Farm, getokenized en zonder stopwoorden. De volgende stap is om de woorden te stemmen en de resultaten te verkennen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

  • Gebruik dplyr en SnowballC om de woorden uit tidy_animal_farm te stemmen.
  • Print de oude woordfrequenties uit tidy_animal_farm.
  • Print de nieuwe woordfrequenties uit stemmed_animal_farm.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Code bewerken en uitvoeren