LoslegenKostenlos loslegen

Ein Tibble aus einem Korpus erstellen

Um den Korpus mit Rohöldaten, den du von einer Kollegin oder einem Kollegen bekommen hast, weiter zu untersuchen, willst du eine Pipeline erstellen, die den Text in den Dokumenten bereinigt. Anstatt das mit dem Paket tm zu machen, wandelst du den Korpus in ein Tibble um, damit du die Funktionen unnest_tokens(), count() und anti_join() nutzen kannst, mit denen du bereits vertraut bist. Der Korpus crude enthält sowohl die Metadaten als auch den Text jedes Dokuments.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Wandle den Korpus in ein Tibble um.
  • Verwende names, um die Spaltennamen auszugeben.
  • Tokenisiere (wortweise), zähle und entferne Stoppwörter aus der Spalte text von crude_tibble.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Code bearbeiten und ausführen