LDA-Übung
Du möchtest die häufigsten Themen rund um die Figur Napoleon in deinem neuen Lieblingsbuch, Animal Farm, untersuchen. Napoleon ist ein Schwein, das seine Kameraden davon überzeugt, ihre menschlichen Anführer zu stürzen. Schließlich wird er selbst der neue Anführer von Animal Farm.
Du hast alle Sätze extrahiert, in denen Napoleons Name erwähnt wird (pig_sentences), und daraus eine tokenisierte Version mit entfernten Stoppwörtern und durchgeführtem Stemming erstellt (pig_tokens). Führe LDA auf diesen Sätzen durch und sieh dir die wichtigsten Wörter an, die einigen der Topics zugeordnet sind.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Führe LDA auf
pig_matrixdurch und identifiziere 10 Topics. Setze für die Reproduzierbarkeit den Zufalls-Seed auf1111. - Extrahiere die Beta-Matrix aus den Ergebnissen.
- Filtere die Beta-Matrix auf Topic 2 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.
- Filtere die Beta-Matrix auf Topic 3 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix
sentence_betas <- ___(sentence_lda, matrix = "___")
# Topic #2
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)
# Topic #3
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)