MulaiMulai sekarang secara gratis

Latihan LDA

Anda tertarik pada tema-tema umum seputar tokoh Napoleon dalam buku baru favorit Anda, Animal Farm. Napoleon adalah seekor Babi yang meyakinkan rekan-rekannya untuk menggulingkan pemimpin manusia mereka. Ia juga akhirnya menjadi pemimpin baru di Animal Farm.

Anda telah mengekstrak semua kalimat yang menyebut nama Napoleon, pig_sentences, dan membuat versi tokenisasi dari kalimat-kalimat ini dengan stop word dihapus dan stemming diselesaikan, pig_tokens. Lakukan LDA pada kalimat-kalimat ini dan tinjau kata-kata teratas yang terkait dengan beberapa topiknya.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Lakukan LDA pada pig_matrix dengan mengidentifikasi 10 topik. Tetapkan random seed 1111 untuk reprodusibilitas.
  • Ekstrak matriks beta dari hasil tersebut.
  • Saring matriks beta untuk topik 2 saja dan urutkan nilainya berdasarkan nilai beta menurun.
  • Saring matriks beta untuk topik 3 saja dan urutkan nilainya berdasarkan nilai beta menurun.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
  ___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix 
sentence_betas <- ___(sentence_lda, matrix = "___")

# Topic #2
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
# Topic #3
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
Edit dan Jalankan Kode