IniziaInizia gratis

Confrontare l'output di LDA

Finora abbiamo eseguito una sola LDA con un numero specifico di argomenti. L'output in formato tidy di quel modello, lda_out_tidy, è stato caricato insieme a dtm_twitter nel tuo ambiente. Ora esegui una LDA con 3 argomenti e confronta gli output.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... with 35,918 more rows

Questo esercizio fa parte del corso

Introduzione all'analisi del testo in R

Visualizza il corso

Istruzioni dell'esercizio

  • Esegui una LDA con 3 argomenti e un campionatore Gibbs (potrebbero volerci 10 secondi o più).
  • Metti in formato tidy la matrice delle probabilità delle parole.
  • Ordina gli argomenti per probabilità delle parole in ordine decrescente.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Run an LDA with 3 topics and a Gibbs sampler
lda_out2 <- ___(
  ___,
  ___,
  ___,
  control = list(seed = 42)
)

# Tidy the matrix of word probabilities
lda_topics2 <- ___ %>% 
  ___(___)

# Arrange the topics by word probabilities in descending order
___ %>% 
  ___(___)
Modifica ed esegui il codice