Tekstvoorbewerking: stopwoorden verwijderen
Stopwoorden zijn onvermijdelijk in teksten. Maar als je wilt bepalen hoe vergelijkbaar twee teksten zijn of thema’s in tekst wilt vinden, kunnen stopwoorden in de weg zitten. In het boek Animal Farm telt hoofdstuk 1 slechts 2.636 woorden, terwijl bijna 200 daarvan het woord "the" zijn.
Meestal helpt "the" ons niet bij tekstanalyseprojecten. In deze oefening verwijder je de stopwoorden uit het eerste hoofdstuk van Animal Farm.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)