Aan de slagGa gratis aan de slag

LDA-uitvoer vergelijken

We hebben tot nu toe maar één LDA uitgevoerd met een specifiek aantal topics. De opgeruimde uitvoer van dat model, lda_out_tidy, en dtm_twitter zijn in je werkruimte geladen. Voer nu een LDA uit met 3 topics en vergelijk de resultaten.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... with 35,918 more rows

Deze oefening maakt deel uit van de cursus

Introductie tot tekstanalyse in R

Cursus bekijken

Oefeninstructies

  • Voer een LDA uit met 3 topics en een Gibbs-sampler (dit kan 10 seconden of langer duren).
  • Maak de matrix met woordkansen tidy.
  • Sorteer de topics aflopend op woordkansen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Run an LDA with 3 topics and a Gibbs sampler
lda_out2 <- ___(
  ___,
  ___,
  ___,
  control = list(seed = 42)
)

# Tidy the matrix of word probabilities
lda_topics2 <- ___ %>% 
  ___(___)

# Arrange the topics by word probabilities in descending order
___ %>% 
  ___(___)
Code bewerken en uitvoeren