Bereinigen mit qdap
Das Paket qdap bietet weitere Funktionen zur Textbereinigung. Jede ist auf ihre Weise nützlich und besonders wirkungsvoll in Kombination mit den anderen.
bracketX(): Entfernt allen Text in Klammern (z. B. "It's (so) cool" wird zu "It's cool")replace_number(): Ersetzt Zahlen durch ihre ausgeschriebenen Wortäquivalente (z. B. "2" wird zu "two")replace_abbreviation(): Ersetzt Abkürzungen durch ihre ausgeschriebenen Formen (z. B. "Sr" wird zu "Senior")replace_contraction(): Wandelt Verkürzungen wieder in ihre Grundformen um (z. B. "shouldn't" wird zu "should not")replace_symbol()Ersetzt gängige Symbole durch ihre Wortäquivalente (z. B. "$" wird zu "dollar")
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Wende die folgenden Funktionen auf das Objekt text aus der vorherigen Übung an:
bracketX()replace_number()replace_abbreviation()replace_contraction()replace_symbol()
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
## text is still loaded in your workspace
# Remove text within brackets
___
# Replace numbers with words
___
# Replace abbreviations
___
# Replace contractions
___
# Replace symbols with words
___