LoslegenKostenlos loslegen

TFIDF-Übung

Vorhin hast du dir eine Bag-of-Words-Darstellung von Artikeln über Rohöl angesehen. Die Berechnung von TFIDF-Werten basiert auf dieser Darstellung, berücksichtigt aber zusätzlich, wie oft ein Wort in einem Artikel vorkommt und wie oft dieses Wort in der Artikelsammlung insgesamt vorkommt.

Um herauszufinden, wie aussagekräftig Wörter beim Vergleich verschiedener Artikel sind, berechne die TFIDF-Gewichte für die Wörter in crude, einer Sammlung von 20 Artikeln über Rohöl.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Berechne die TFIDF-Werte für crude nach article_id und nach word. Speichere das entstehende Tibble als crude_weights.
  • Sortiere crude_weights mit der Funktion arrange() absteigend nach den tf_idf-Werten.
  • Filtere crude_weights auf die kleinsten von null verschiedenen tf_idf-Werte. Verwende dafür erneut die Funktion arrange.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Code bearbeiten und ausführen