MulaiMulai sekarang secara gratis

Tag cloud terpolarisasi

Commonality cloud menampilkan kata-kata yang digunakan bersama di berbagai dokumen. Satu hal menarik yang tidak dapat ditunjukkannya adalah kata mana yang lebih sering muncul di satu dokumen dibandingkan dokumen lainnya. Untuk itu, Anda memerlukan pyramid plot; ini dapat dibuat menggunakan pyramid.plot() dari paket plotrix.

Pertama, perlu dilakukan beberapa manipulasi agar data sesuai. Cara termudah adalah mengonversinya menjadi data frame dan menggunakan dplyr. Diberikan sebuah matriks jumlah kata, seperti yang dibuat oleh as.matrix(tdm), Anda perlu mendapatkan sebuah data frame dengan tiga kolom:

  • Kata-kata yang terdapat di setiap dokumen.
  • Jumlah kemunculan kata tersebut dari dokumen 1.
  • Jumlah kemunculan kata tersebut dari dokumen 2.

Lalu jalankan pyramid.plot() dengan

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Terdapat beberapa argumen tambahan untuk mempercantik tampilan plot.

Sekarang Anda akan menelusuri kata-kata yang umum pada tweet tentang chardonnay, tetapi jarang pada tweet tentang coffee. all_dtm_m sudah dibuat untuk Anda.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))
Edit dan Jalankan Kode