TFIDF-Übung
Vorhin hast du dir eine Bag-of-Words-Darstellung von Artikeln über Rohöl angesehen. Die Berechnung von TFIDF-Werten basiert auf dieser Darstellung, berücksichtigt aber zusätzlich, wie oft ein Wort in einem Artikel vorkommt und wie oft dieses Wort in der Artikelsammlung insgesamt vorkommt.
Um herauszufinden, wie aussagekräftig Wörter beim Vergleich verschiedener Artikel sind, berechne die TFIDF-Gewichte für die Wörter in crude, einer Sammlung von 20 Artikeln über Rohöl.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Berechne die TFIDF-Werte für
crudenacharticle_idund nachword. Speichere das entstehende Tibble alscrude_weights. - Sortiere
crude_weightsmit der Funktionarrange()absteigend nach dentf_idf-Werten. - Filtere
crude_weightsauf die kleinsten von null verschiedenentf_idf-Werte. Verwende dafür erneut die Funktionarrange.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)