Onderwerpen toekennen aan documenten

LDA-modellen zijn nutteloos als je de resultaten niet kunt interpreteren en gebruiken. Je hebt de resultaten gekregen van het draaien van een LDA-model, sentence_lda, op een set zinnen, pig_sentences. Je moet zowel de beta-matrix (topwoorden per onderwerp) als de gamma-matrix (toponderwerpen per document) verkennen om de resultaten van een LDA-analyse goed te begrijpen.

Op basis van wat je over deze twee matrices weet, haal je de resultaten voor een specifiek onderwerp op en kijk je of de output overeenkomt met je verwachtingen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Maak een tibble voor zowel de beta- als de gamma-matrix.
Verken onderwerp 5 door te kijken naar de topwoorden voor onderwerp 5 en sorteer de resultaten aflopend op beta-waarden.
Verken onderwerp 5 door te zien welke zinnen het meest overeenkomen met onderwerp 5 en sorteer de resultaten aflopend op gamma-waarden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")

# Explore Topic 5 Betas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

# Explore Topic 5 Gammas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie