LoslegenKostenlos loslegen

Häufige Cleaning-Funktionen aus tm

Jetzt, da du zwei Möglichkeiten kennst, ein Korpus zu erstellen, kannst du dich auf das Säubern bzw. das Preprocessing des Textes konzentrieren. Zuerst säuberst du ein kleines Textstück; danach gehst du zu größeren Korpora über.

Beim Text Mining mit Bag-of-Words hilft Cleaning dabei, Begriffe zu vereinheitlichen. Es kann zum Beispiel sinnvoll sein, die Wörter „miner“, „mining“ und „mine“ als einen Begriff zu behandeln. Die konkreten Preprocessing-Schritte hängen vom Projekt ab. Die in Tweets verwendeten Wörter unterscheiden sich stark von denen in juristischen Dokumenten – entsprechend kann auch der Cleaning-Prozess sehr verschieden sein.

Häufige Preprocessing-Funktionen sind:

  • tolower(): alle Zeichen in Kleinbuchstaben umwandeln
  • removePunctuation(): alle Satzzeichen entfernen
  • removeNumbers(): Zahlen entfernen
  • stripWhitespace(): überflüssige Leerzeichen entfernen

tolower() gehört zu Base R, die anderen drei Funktionen stammen aus dem Paket tm. Im weiteren Verlauf laden wir tm und qdap für dich, wenn sie benötigt werden. Jedes Mal, wenn wir ein neues Paket einführen, lädst du es beim ersten Mal selbst.

Die Variable text mit einem Satz ist im Skript angegeben.

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

Wende jede der folgenden Funktionen auf text an und gib die Ergebnisse einfach auf der Konsole aus:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___
Code bearbeiten und ausführen