LoslegenKostenlos loslegen

Bereinigen mit qdap

Das Paket qdap bietet weitere Funktionen zur Textbereinigung. Jede ist auf ihre Weise nützlich und besonders wirkungsvoll in Kombination mit den anderen.

  • bracketX(): Entfernt allen Text in Klammern (z. B. "It's (so) cool" wird zu "It's cool")
  • replace_number(): Ersetzt Zahlen durch ihre ausgeschriebenen Wortäquivalente (z. B. "2" wird zu "two")
  • replace_abbreviation(): Ersetzt Abkürzungen durch ihre ausgeschriebenen Formen (z. B. "Sr" wird zu "Senior")
  • replace_contraction(): Wandelt Verkürzungen wieder in ihre Grundformen um (z. B. "shouldn't" wird zu "should not")
  • replace_symbol() Ersetzt gängige Symbole durch ihre Wortäquivalente (z. B. "$" wird zu "dollar")

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

Wende die folgenden Funktionen auf das Objekt text aus der vorherigen Übung an:

  • bracketX()
  • replace_number()
  • replace_abbreviation()
  • replace_contraction()
  • replace_symbol()

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

## text is still loaded in your workspace

# Remove text within brackets
___

# Replace numbers with words
___

# Replace abbreviations
___

# Replace contractions
___

# Replace symbols with words
___
Code bearbeiten und ausführen