Einführung in Wortstamm-Reduktion und Stem-Completion
Ein weiterer nützlicher Preprocessing-Schritt ist die Kombination aus word stemming und stem completion. Beim Stemming werden Wörter auf ihren Stamm reduziert, um sie über Dokumente hinweg zu vereinheitlichen. Zum Beispiel ist der Stamm von „computational“, „computers“ und „computation“ „comput“. Da „comput“ aber kein echtes Wort ist, möchten wir die Wörter so rekonstruieren, dass „computational“, „computers“ und „computation“ wieder auf ein erkennbares Wort verweisen, etwa „computer“. Dieser Rekonstruktionsschritt heißt Stem-Completion.
Das tm-Paket stellt die Funktion stemDocument() bereit, um zur Wortwurzel zu gelangen. Diese Funktion nimmt entweder einen Character-Vektor und gibt einen Character-Vektor zurück oder sie nimmt ein PlainTextDocument und gibt ein PlainTextDocument zurück.
Zum Beispiel:
stemDocument(c("computational", "computers", "computation"))
liefert "comput" "comput" "comput".
Du wirst stemCompletion() verwenden, um diese Wortstämme wieder zu einem bekannten Begriff zu rekonstruieren. stemCompletion() akzeptiert einen Character-Vektor und ein Completion-Wörterbuch. Das Completion-Wörterbuch kann ein Character-Vektor oder ein Corpus-Objekt sein. In jedem Fall müsste das Wörterbuch in unserem Beispiel das Wort „computer“ enthalten, damit alle Vorkommen von „comput“ rekonstruiert werden können.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle einen Vektor namens
complicatemit den Wörtern „complicated“, „complication“ und „complicatedly“ in genau dieser Reihenfolge. - Speichere die gestemmte Version von
complicatein einem Objekt namensstem_doc. - Erstelle
comp_dict, das ein Wort enthält: „complicate“. - Erstelle
complete_text, indem dustemCompletion()aufstem_docanwendest. Rekonstruiere die Wörter mithilfe voncomp_dictals Referenzkorpus. - Gib
complete_textin der Konsole aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text