TFIDF-Übung
Vorhin hast du dir eine Bag-of-Words-Darstellung von Artikeln über Rohöl angesehen. Die Berechnung von TFIDF-Werten basiert auf dieser Darstellung, berücksichtigt aber zusätzlich, wie oft ein Wort in einem Artikel vorkommt und wie oft dieses Wort in der Artikelsammlung insgesamt vorkommt.
Um herauszufinden, wie aussagekräftig Wörter beim Vergleich verschiedener Artikel sind, berechne die TFIDF-Gewichte für die Wörter in crude, einer Sammlung von 20 Artikeln über Rohöl.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Übungsanweisungen
- Berechne die TFIDF-Werte für
crudenacharticle_idund nachword. Speichere das entstehende Tibble alscrude_weights. - Sortiere
crude_weightsmit der Funktionarrange()absteigend nach dentf_idf-Werten. - Filtere
crude_weightsauf die kleinsten von null verschiedenentf_idf-Werte. Verwende dafür erneut die Funktionarrange.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)