Oefenen met TFIDF

Eerder heb je gekeken naar een bag-of-words-representatie van artikelen over ruwe olie. Het berekenen van TFIDF-waarden is gebaseerd op deze bag-of-words-representatie, maar houdt rekening met hoe vaak een woord voorkomt in een artikel, en hoe vaak dat woord voorkomt in de hele verzameling artikelen.

Om te bepalen hoe betekenisvol woorden zijn bij het vergelijken van verschillende artikelen, bereken je de TFIDF-gewichten voor de woorden in crude, een verzameling van 20 artikelen over ruwe olie.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Bereken TFIDF-waarden voor crude per article_id en per word. Sla de resulterende tibble op als crude_weights.
Sorteer crude_weights met de functie arrange() op aflopende tf_idf-waarden.
Filter crude_weights naar de laagste niet-nul tf_idf-waarden. Gebruik hiervoor opnieuw de functie arrange.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie