Aan de slagGa gratis aan de slag

Oefenen met TFIDF

Eerder heb je gekeken naar een bag-of-words-representatie van artikelen over ruwe olie. Het berekenen van TFIDF-waarden is gebaseerd op deze bag-of-words-representatie, maar houdt rekening met hoe vaak een woord voorkomt in een artikel, en hoe vaak dat woord voorkomt in de hele verzameling artikelen.

Om te bepalen hoe betekenisvol woorden zijn bij het vergelijken van verschillende artikelen, bereken je de TFIDF-gewichten voor de woorden in crude, een verzameling van 20 artikelen over ruwe olie.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Bereken TFIDF-waarden voor crude per article_id en per word. Sla de resulterende tibble op als crude_weights.
  • Sorteer crude_weights met de functie arrange() op aflopende tf_idf-waarden.
  • Filter crude_weights naar de laagste niet-nul tf_idf-waarden. Gebruik hiervoor opnieuw de functie arrange.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Code bewerken en uitvoeren