LoslegenKostenlos starten

Textvorverarbeitung: Stemming

Die Wortstämme sind oft wichtiger als ihre Endungen – besonders in der Textanalyse. Das Buch Animal Farm handelt offensichtlich von Tieren. Zu wissen, dass animal's 248‑mal und animal 107‑mal vorkommt, hilft deiner Analyse jedoch möglicherweise nicht weiter.

tidy_animal_farm enthält ein Tibble mit den Wörtern aus Animal Farm, tokenisiert und ohne Stoppwörter. Der nächste Schritt ist, die Wörter zu „stämmen“ und die Ergebnisse zu untersuchen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Verwende dplyr und SnowballC, um die Wörter aus tidy_animal_farm zu stämmen.
  • Gib die alten Worthäufigkeiten aus tidy_animal_farm aus.
  • Gib die neuen Worthäufigkeiten aus stemmed_animal_farm aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Code bearbeiten und ausführen