LDA-Ausgaben vergleichen

Bisher haben wir nur eine einzelne LDA mit einer bestimmten Anzahl an Topics ausgeführt. Die aufbereitete Ausgabe dieses Modells, lda_out_tidy, sowie dtm_twitter wurden in deinem Workspace geladen. Führe nun eine LDA mit 3 Topics aus und vergleiche die Ausgaben.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... with 35,918 more rows

Diese Übung ist Teil des Kurses

<Kurs>Einführung in die Textanalyse mit R</Kurs>

Kurs ansehen

Übungsanweisungen

Führe eine LDA mit 3 Topics und einem Gibbs-Sampler aus (das kann 10 Sekunden oder mehr dauern).
Bereite die Matrix der Wortwahrscheinlichkeiten als Tidy-Daten auf.
Sortiere die Topics nach Wortwahrscheinlichkeiten in absteigender Reihenfolge.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Run an LDA with 3 topics and a Gibbs sampler
lda_out2 <- ___(
  ___,
  ___,
  ___,
  control = list(seed = 42)
)

# Tidy the matrix of word probabilities
lda_topics2 <- ___ %>% 
  ___(___)

# Arrange the topics by word probabilities in descending order
___ %>% 
  ___(___)

Code bearbeiten und ausführen