Comparer les sorties de LDA

Nous n’avons exécuté qu’un seul LDA avec un nombre de sujets donné. Le résultat « tidy » de ce modèle, lda_out_tidy, a été chargé, ainsi que dtm_twitter, dans votre espace de travail. Lancez maintenant un LDA avec 3 sujets et comparez les résultats.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... avec 35,918 lignes supplémentaires

Cet exercice fait partie du cours

<cours>Introduction à l’analyse de texte en R</cours>

Voir le cours

Instructions de l’exercice

Exécutez un LDA avec 3 sujets et un échantillonneur de Gibbs (cela peut prendre 10 secondes ou plus).
Mettez en forme la matrice des probabilités des mots.
Triez les sujets par probabilité des mots par ordre décroissant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Run an LDA with 3 topics and a Gibbs sampler
lda_out2 <- ___(
  ___,
  ___,
  ___,
  control = list(seed = 42)
)

# Tidy the matrix of word probabilities
lda_topics2 <- ___ %>% 
  ___(___)

# Arrange the topics by word probabilities in descending order
___ %>% 
  ___(___)

Modifier et exécuter le code