Ein Tibble aus einem Korpus erstellen
Um den Korpus mit Rohöldaten, den du von einer Kollegin oder einem Kollegen bekommen hast, weiter zu untersuchen, willst du eine Pipeline erstellen, die den Text in den Dokumenten bereinigt. Anstatt das mit dem Paket tm zu machen, wandelst du den Korpus in ein Tibble um, damit du die Funktionen unnest_tokens(), count() und anti_join() nutzen kannst, mit denen du bereits vertraut bist. Der Korpus crude enthält sowohl die Metadaten als auch den Text jedes Dokuments.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Wandle den Korpus in ein Tibble um.
- Verwende
names, um die Spaltennamen auszugeben. - Tokenisiere (wortweise), zähle und entferne Stoppwörter aus der Spalte
textvoncrude_tibble.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)