LoslegenKostenlos loslegen

Textvorverarbeitung: Stemming

Die Wortstämme sind oft wichtiger als ihre Endungen – besonders in der Textanalyse. Das Buch Animal Farm handelt offensichtlich von Tieren. Zu wissen, dass animal's 248‑mal und animal 107‑mal vorkommt, hilft deiner Analyse jedoch möglicherweise nicht weiter.

tidy_animal_farm enthält ein Tibble mit den Wörtern aus Animal Farm, tokenisiert und ohne Stoppwörter. Der nächste Schritt ist, die Wörter zu „stämmen“ und die Ergebnisse zu untersuchen.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Verwende dplyr und SnowballC, um die Wörter aus tidy_animal_farm zu stämmen.
  • Gib die alten Worthäufigkeiten aus tidy_animal_farm aus.
  • Gib die neuen Worthäufigkeiten aus stemmed_animal_farm aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Code bearbeiten und ausführen