Onderwerpen toekennen aan documenten
LDA-modellen zijn nutteloos als je de resultaten niet kunt interpreteren en gebruiken. Je hebt de resultaten gekregen van het draaien van een LDA-model, sentence_lda, op een set zinnen, pig_sentences. Je moet zowel de beta-matrix (topwoorden per onderwerp) als de gamma-matrix (toponderwerpen per document) verkennen om de resultaten van een LDA-analyse goed te begrijpen.
Op basis van wat je over deze twee matrices weet, haal je de resultaten voor een specifiek onderwerp op en kijk je of de output overeenkomt met je verwachtingen.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Maak een tibble voor zowel de
beta- als degamma-matrix. - Verken onderwerp 5 door te kijken naar de topwoorden voor onderwerp 5 en sorteer de resultaten aflopend op
beta-waarden. - Verken onderwerp 5 door te zien welke zinnen het meest overeenkomen met onderwerp 5 en sorteer de resultaten aflopend op
gamma-waarden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")
# Explore Topic 5 Betas
___ %>%
___(topic == ___) %>%
arrange(-___)
# Explore Topic 5 Gammas
___ %>%
___(topic == ___) %>%
arrange(-___)