Oefenen met LDA
Je bent benieuwd naar de terugkerende thema’s rond het personage Napoleon in je nieuwe favoriete boek, Animal Farm. Napoleon is een varken dat zijn kameraden overtuigt om hun menselijke leiders omver te werpen. Uiteindelijk wordt hij ook de nieuwe leider van Animal Farm.
Je hebt alle zinnen verzameld waarin Napoleons naam voorkomt, pig_sentences, en een getokenizeerde versie van deze zinnen gemaakt met stopwoorden verwijderd en stemming uitgevoerd, pig_tokens. Voer LDA uit op deze zinnen en bekijk de belangrijkste woorden die bij enkele van de topics horen.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Voer LDA uit op
pig_matrixen identificeer 10 topics. Stel een random seed in op1111voor reproduceerbaarheid. - Extraheer de beta-matrix uit de resultaten.
- Filter de beta-matrix naar alleen topic 2 en rangschik de waarden aflopend op beta.
- Filter de beta-matrix naar alleen topic 3 en rangschik de waarden aflopend op beta.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix
sentence_betas <- ___(sentence_lda, matrix = "___")
# Topic #2
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)
# Topic #3
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)