Oefenen met TFIDF
Eerder heb je gekeken naar een bag-of-words-representatie van artikelen over ruwe olie. Het berekenen van TFIDF-waarden is gebaseerd op deze bag-of-words-representatie, maar houdt rekening met hoe vaak een woord voorkomt in een artikel, en hoe vaak dat woord voorkomt in de hele verzameling artikelen.
Om te bepalen hoe betekenisvol woorden zijn bij het vergelijken van verschillende artikelen, bereken je de TFIDF-gewichten voor de woorden in crude, een verzameling van 20 artikelen over ruwe olie.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Bereken TFIDF-waarden voor
crudeperarticle_iden perword. Sla de resulterende tibble op alscrude_weights. - Sorteer
crude_weightsmet de functiearrange()op aflopendetf_idf-waarden. - Filter
crude_weightsnaar de laagste niet-nultf_idf-waarden. Gebruik hiervoor opnieuw de functiearrange.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)