Textvorverarbeitung: Stoppwörter entfernen
Stoppwörter sind in jedem Text unvermeidlich. Wenn du jedoch herausfinden willst, wie ähnlich sich zwei Texte sind oder welche Themen in einem Text vorkommen, können Stoppwörter stören. Im Buch Animal Farm enthält das erste Kapitel nur 2.636 Wörter, aber fast 200 davon sind das Wort "the".
In der Regel hilft uns "the" bei Textanalysen nicht weiter. In dieser Übung entfernst du die Stoppwörter aus dem ersten Kapitel von Animal Farm.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)