Themen Dokumenten zuweisen
LDA-Modelle sind nur dann nützlich, wenn du die Ergebnisse interpretieren und verwenden kannst. du hast die Ergebnisse eines LDA-Modells sentence_lda für einen Satz-Datensatz pig_sentences erhalten. Um die Ergebnisse einer LDA-Analyse vollständig zu verstehen, musst du sowohl die beta-Matrix (Top-Wörter je Thema) als auch die gamma-Matrix (Top-Themen je Dokument) untersuchen.
Nutze dein Wissen über diese beiden Matrizen, extrahiere die Ergebnisse für ein bestimmtes Thema und prüfe, ob die Ausgabe zu den Erwartungen passt.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Erstelle je ein Tibble für die Matrizen
betaundgamma. - Untersuche Thema 5, indem du dir die Top-Wörter für Thema 5 ansiehst und die Ergebnisse nach absteigenden
beta-Werten sortierst. - Untersuche Thema 5, indem du prüfst, welche Sätze am stärksten zu Thema 5 passen, und sortiere die Ergebnisse nach absteigenden
gamma-Werten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")
# Explore Topic 5 Betas
___ %>%
___(topic == ___) %>%
arrange(-___)
# Explore Topic 5 Gammas
___ %>%
___(topic == ___) %>%
arrange(-___)