MulaiMulai sekarang secara gratis

dendrogram amzn_cons

Tampaknya ada indikasi kuat jam kerja yang panjang dan keseimbangan kerja-hidup yang buruk dalam ulasan. Sebagai teknik pengelompokan sederhana, Anda memutuskan untuk melakukan klaster hierarkis dan membuat dendrogram untuk melihat seberapa terkait frasa-frasa ini.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat amzn_c_tdm sebagai TermDocumentMatrix menggunakan amzn_cons_corp dengan control = list(tokenize = tokenizer).
  • Cetak amzn_c_tdm ke konsol.
  • Buat amzn_c_tdm2 dengan menerapkan fungsi removeSparseTerms() pada amzn_c_tdm dengan argumen sparse bernilai .993.
  • Buat hc, objek klaster hierarkis dengan menaruh matriks jarak dist(amzn_c_tdm2) di dalam fungsi hclust(). Pastikan juga meneruskan method = "complete" ke fungsi hclust().
  • Plot hc untuk melihat bigram yang terklaster dan memahami bagaimana konsep dalam bagian cons Amazon dapat membawa Anda pada sebuah kesimpulan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Edit dan Jalankan Kode