Textvorverarbeitung: Stemming
Die Wortstämme sind oft wichtiger als ihre Endungen – besonders in der Textanalyse. Das Buch Animal Farm handelt offensichtlich von Tieren. Zu wissen, dass animal's 248‑mal und animal 107‑mal vorkommt, hilft deiner Analyse jedoch möglicherweise nicht weiter.
tidy_animal_farm enthält ein Tibble mit den Wörtern aus Animal Farm, tokenisiert und ohne Stoppwörter. Der nächste Schritt ist, die Wörter zu „stämmen“ und die Ergebnisse zu untersuchen.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Verwende
dplyrundSnowballC, um die Wörter austidy_animal_farmzu stämmen. - Gib die alten Worthäufigkeiten aus
tidy_animal_farmaus. - Gib die neuen Worthäufigkeiten aus
stemmed_animal_farmaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)