Tag cloud terpolarisasi
Commonality cloud menampilkan kata-kata yang digunakan bersama di berbagai dokumen. Satu hal menarik yang tidak dapat ditunjukkannya adalah kata mana yang lebih sering muncul di satu dokumen dibandingkan dokumen lainnya. Untuk itu, Anda memerlukan pyramid plot; ini dapat dibuat menggunakan pyramid.plot() dari paket plotrix.
Pertama, perlu dilakukan beberapa manipulasi agar data sesuai. Cara termudah adalah mengonversinya menjadi data frame dan menggunakan dplyr. Diberikan sebuah matriks jumlah kata, seperti yang dibuat oleh as.matrix(tdm), Anda perlu mendapatkan sebuah data frame dengan tiga kolom:
- Kata-kata yang terdapat di setiap dokumen.
- Jumlah kemunculan kata tersebut dari dokumen 1.
- Jumlah kemunculan kata tersebut dari dokumen 2.
Lalu jalankan pyramid.plot() dengan
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Terdapat beberapa argumen tambahan untuk mempercantik tampilan plot.
Sekarang Anda akan menelusuri kata-kata yang umum pada tweet tentang chardonnay, tetapi jarang pada tweet tentang coffee. all_dtm_m sudah dibuat untuk Anda.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))