Latihan LDA
Anda tertarik pada tema-tema umum seputar tokoh Napoleon dalam buku baru favorit Anda, Animal Farm. Napoleon adalah seekor Babi yang meyakinkan rekan-rekannya untuk menggulingkan pemimpin manusia mereka. Ia juga akhirnya menjadi pemimpin baru di Animal Farm.
Anda telah mengekstrak semua kalimat yang menyebut nama Napoleon, pig_sentences, dan membuat versi tokenisasi dari kalimat-kalimat ini dengan stop word dihapus dan stemming diselesaikan, pig_tokens. Lakukan LDA pada kalimat-kalimat ini dan tinjau kata-kata teratas yang terkait dengan beberapa topiknya.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Lakukan LDA pada
pig_matrixdengan mengidentifikasi 10 topik. Tetapkan random seed1111untuk reprodusibilitas. - Ekstrak matriks beta dari hasil tersebut.
- Saring matriks beta untuk topik 2 saja dan urutkan nilainya berdasarkan nilai beta menurun.
- Saring matriks beta untuk topik 3 saja dan urutkan nilainya berdasarkan nilai beta menurun.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix
sentence_betas <- ___(sentence_lda, matrix = "___")
# Topic #2
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)
# Topic #3
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)