Häufige Cleaning-Funktionen aus tm

Jetzt, da du zwei Möglichkeiten kennst, ein Korpus zu erstellen, kannst du dich auf das Säubern bzw. das Preprocessing des Textes konzentrieren. Zuerst säuberst du ein kleines Textstück; danach gehst du zu größeren Korpora über.

Beim Text Mining mit Bag-of-Words hilft Cleaning dabei, Begriffe zu vereinheitlichen. Es kann zum Beispiel sinnvoll sein, die Wörter „miner“, „mining“ und „mine“ als einen Begriff zu behandeln. Die konkreten Preprocessing-Schritte hängen vom Projekt ab. Die in Tweets verwendeten Wörter unterscheiden sich stark von denen in juristischen Dokumenten – entsprechend kann auch der Cleaning-Prozess sehr verschieden sein.

Häufige Preprocessing-Funktionen sind:

tolower(): alle Zeichen in Kleinbuchstaben umwandeln
removePunctuation(): alle Satzzeichen entfernen
removeNumbers(): Zahlen entfernen
stripWhitespace(): überflüssige Leerzeichen entfernen

tolower() gehört zu Base R, die anderen drei Funktionen stammen aus dem Paket tm. Im weiteren Verlauf laden wir tm und qdap für dich, wenn sie benötigt werden. Jedes Mal, wenn wir ein neues Paket einführen, lädst du es beim ersten Mal selbst.

Die Variable text mit einem Satz ist im Skript angegeben.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Wende jede der folgenden Funktionen auf text an und gib die Ergebnisse einfach auf der Konsole aus:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Code bearbeiten und ausführen