Mulai sekarangMulai gratis

dendrogram amzn_cons

Tampaknya ada indikasi kuat jam kerja yang panjang dan keseimbangan kerja-hidup yang buruk dalam ulasan. Sebagai teknik pengelompokan sederhana, Anda memutuskan untuk melakukan klaster hierarkis dan membuat dendrogram untuk melihat seberapa terkait frasa-frasa ini.

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

  • Buat amzn_c_tdm sebagai TermDocumentMatrix menggunakan amzn_cons_corp dengan control = list(tokenize = tokenizer).
  • Cetak amzn_c_tdm ke konsol.
  • Buat amzn_c_tdm2 dengan menerapkan fungsi removeSparseTerms() pada amzn_c_tdm dengan argumen sparse bernilai .993.
  • Buat hc, objek klaster hierarkis dengan menaruh matriks jarak dist(amzn_c_tdm2) di dalam fungsi hclust(). Pastikan juga meneruskan method = "complete" ke fungsi hclust().
  • Plot hc untuk melihat bigram yang terklaster dan memahami bagaimana konsep dalam bagian cons Amazon dapat membawa Anda pada sebuah kesimpulan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Edit dan Jalankan Kode