Textvorverarbeitung: Stoppwörter entfernen
Stoppwörter sind in jedem Text unvermeidlich. Wenn du jedoch herausfinden willst, wie ähnlich sich zwei Texte sind oder welche Themen in einem Text vorkommen, können Stoppwörter stören. Im Buch Animal Farm enthält das erste Kapitel nur 2.636 Wörter, aber fast 200 davon sind das Wort "the".
In der Regel hilft uns "the" bei Textanalysen nicht weiter. In dieser Übung entfernst du die Stoppwörter aus dem ersten Kapitel von Animal Farm.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)