LoslegenKostenlos loslegen

Einführung in Wortstamm-Reduktion und Stem-Completion

Ein weiterer nützlicher Preprocessing-Schritt ist die Kombination aus word stemming und stem completion. Beim Stemming werden Wörter auf ihren Stamm reduziert, um sie über Dokumente hinweg zu vereinheitlichen. Zum Beispiel ist der Stamm von „computational“, „computers“ und „computation“ „comput“. Da „comput“ aber kein echtes Wort ist, möchten wir die Wörter so rekonstruieren, dass „computational“, „computers“ und „computation“ wieder auf ein erkennbares Wort verweisen, etwa „computer“. Dieser Rekonstruktionsschritt heißt Stem-Completion.

Das tm-Paket stellt die Funktion stemDocument() bereit, um zur Wortwurzel zu gelangen. Diese Funktion nimmt entweder einen Character-Vektor und gibt einen Character-Vektor zurück oder sie nimmt ein PlainTextDocument und gibt ein PlainTextDocument zurück.

Zum Beispiel:

stemDocument(c("computational", "computers", "computation"))

liefert "comput" "comput" "comput".

Du wirst stemCompletion() verwenden, um diese Wortstämme wieder zu einem bekannten Begriff zu rekonstruieren. stemCompletion() akzeptiert einen Character-Vektor und ein Completion-Wörterbuch. Das Completion-Wörterbuch kann ein Character-Vektor oder ein Corpus-Objekt sein. In jedem Fall müsste das Wörterbuch in unserem Beispiel das Wort „computer“ enthalten, damit alle Vorkommen von „comput“ rekonstruiert werden können.

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen Vektor namens complicate mit den Wörtern „complicated“, „complication“ und „complicatedly“ in genau dieser Reihenfolge.
  • Speichere die gestemmte Version von complicate in einem Objekt namens stem_doc.
  • Erstelle comp_dict, das ein Wort enthält: „complicate“.
  • Erstelle complete_text, indem du stemCompletion() auf stem_doc anwendest. Rekonstruiere die Wörter mithilfe von comp_dict als Referenzkorpus.
  • Gib complete_text in der Konsole aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Code bearbeiten und ausführen