Meninjau hasil LDA
Anda telah mengembangkan model topik, napoleon_model, dengan 5 topik untuk kalimat-kalimat dari buku Animal Farm yang merujuk pada tokoh utama, Napoleon. Anda telah meminta 5 penulis lokal meninjau kata-kata teratas dan kalimat-kalimat teratas untuk setiap topik, dan mereka telah memberikan tema untuk masing-masing topik.
Untuk memfinalkan hasil, siapkan beberapa statistik ringkasan tentang topik-topik tersebut. Anda akan menyajikan nilai ringkasan ini bersama tema-temanya kepada atasan Anda untuk ditinjau.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Ekstrak matriks gamma dari model topik,
napoleon_model. - Gunakan fungsi
dplyruntuk membuat tibble berisi topik teratas pada setiap kalimat bernamagrouped_gammas. - Gunakan
grouped_gammasuntuk menghitung jumlah kalimat yang paling mirip dengan tiap topik. - Gunakan
grouped_gammasdan hitung nilai gamma rata-rata untuk tiap topik.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract the gamma matrix
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
___(document) %>%
___(desc(gamma)) %>%
___(1) %>%
___(topic)
# Count (tally) by topic
grouped_gammas %>%
___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>%
___(avg=mean(gamma)) %>%
___(desc(avg))