Menetapkan topik ke dokumen
Membuat model LDA tidak berguna jika Anda tidak dapat menafsirkan dan menggunakan hasilnya. Anda telah diberikan hasil menjalankan model LDA, sentence_lda, pada sekumpulan kalimat, pig_sentences. Anda perlu menelusuri kedua matriks beta (kata-kata teratas per topik) dan gamma (topik-topik teratas per dokumen) untuk benar-benar memahami hasil analisis LDA apa pun.
Berdasarkan pemahaman Anda tentang kedua matriks ini, ekstrak hasil untuk satu topik tertentu dan periksa apakah keluarannya sesuai dengan ekspektasi.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Buat tibble untuk kedua matriks
betadangamma. - Telusuri topik 5 dengan melihat kata-kata teratas untuk topik 5 sambil mengurutkan hasil berdasarkan nilai
betasecara menurun. - Telusuri topik 5 dengan melihat kalimat mana yang paling selaras dengan topik 5 sambil mengurutkan hasil berdasarkan nilai
gammasecara menurun.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")
# Explore Topic 5 Betas
___ %>%
___(topic == ___) %>%
arrange(-___)
# Explore Topic 5 Gammas
___ %>%
___(topic == ___) %>%
arrange(-___)