LoslegenKostenlos starten

LDA-Übung

Du möchtest die häufigsten Themen rund um die Figur Napoleon in deinem neuen Lieblingsbuch, Animal Farm, untersuchen. Napoleon ist ein Schwein, das seine Kameraden davon überzeugt, ihre menschlichen Anführer zu stürzen. Schließlich wird er selbst der neue Anführer von Animal Farm.

Du hast alle Sätze extrahiert, in denen Napoleons Name erwähnt wird (pig_sentences), und daraus eine tokenisierte Version mit entfernten Stoppwörtern und durchgeführtem Stemming erstellt (pig_tokens). Führe LDA auf diesen Sätzen durch und sieh dir die wichtigsten Wörter an, die einigen der Topics zugeordnet sind.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Führe LDA auf pig_matrix durch und identifiziere 10 Topics. Setze für die Reproduzierbarkeit den Zufalls-Seed auf 1111.
  • Extrahiere die Beta-Matrix aus den Ergebnissen.
  • Filtere die Beta-Matrix auf Topic 2 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.
  • Filtere die Beta-Matrix auf Topic 3 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
  ___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix 
sentence_betas <- ___(sentence_lda, matrix = "___")

# Topic #2
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
# Topic #3
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
Code bearbeiten und ausführen